互联网科技列表
-
hbase的典型场景
1. hbase整合Mapreduce 在离线任务场景中,MapReduce访问HBASE数据,加快分析速度和扩展分析能力。从hbase中读取数据(result)public class ReadH
2022-06-03 数据 整合 输出 任务 文件 集群 字段 时间 条件 路径 分析 处理 登录 配置 场景 一行 个数 中表 入口 原则 -
Python 极简教程(四)变量与常量
变量和常量在 Python 中没有 常量 与 变量 之分。只有约定成俗的做法:全大写字母的名称即为 常量:PI = 3.1415926全小写字母的名称为 变量:name = 'nemo'变量与常量都是
2022-06-03 变量 常量 内存 指向 存储 运行 过程 名称 地址 字母 就是 是在 空间 类型 语句 变化 约定 没关系 一般来说 不用 -
10.spark sql之快速入门
前世今生Hive&Shark 随着大数据时代的来临,Hadoop风靡一时。为了使熟悉RDBMS但又不理解MapReduce的技术人员快速进行大数据开发,Hive应运而生。Hive是当时唯一运行在Ha
2022-06-03 数据 引擎 技术 方面 组件 结构 发展 代码 序列 文件 处理 开发 查询 结构化 运行 不用 优点 内存 动态 对象 -
HTTP的无状态
HTTP是无状态的。好处:因为服务器没有"记忆能力",所以就不需要额外的资源来记录状态信息,不仅实现上会简单一些,而且还能减轻服务器的负担,能够把更多的 CPU 和内存用来对外提供服务。而且,"无状态
2022-06-03 服务 状态 服务器 能力 记忆 购物 相同 一致 均衡 事务 信息 内存 办法 坏处 多个 好处 差异 技术 更多 机器 -
Kafka 0.10.1.0 Cluster的搭建和Topic简单操作实验
【kafka cluster机器】:机器名称 用户名称sht-sgmhadoopdn-01/02/03 root【安装目录】: /root/learnproject/app1.将scala文件夹同步到
2022-06-03 消息 名称 副本 终端 数量 机器 脚本 同步 消费 一行 变量 命令 版本 环境 目录 节点 集群 中生 配置 实验 -
再谈循环&迭代&回溯&递归&递推这些基本概念
循环:不断重复进行某一运算、操作。迭代:不断对前一旧值运算得到新值直到达到精度。一般用于得到近似目标值,反复循环同一运算式(函数),并且总是把前一 次运算结果反代会运算式进行下一次运算递推:从初值出发
2022-06-03 递归 循环 运算 结果 问题 程序 副作用 不断 就是 写法 函数 初值 好处 规模 设计 迭代 从小 公式 变量 序列 -
6.spark core之键值对操作
键值对RDD(pair RDD)是spark中许多操作所需要的常见数据类型,通常用来进行聚合计算。创建Pair RDD spark有多种方式可以创建pair RDD。比如:很多存储键值对的数据格
2022-06-03 数据 函数 两个 方法 相同 分组 排序 元素 单词 类型 结果 方式 示例 累加器 行动 不同 作用 单个 名作 多个 -
软件工作量评估方法之用例点方法简述
用于软件项目工作量估算的方法有以"估"为主的专家法和类推法,以"算"为主的类比法和方程法。在软件估算的实践中,类比法和类推法也是普遍使用的估算方法,但很多人搞不清二者的应用范围和估算步骤,现在笔者就对
2022-06-03 项目 数据 属性 历史 工作量 工作 应用 业务 银行 基准 系统 范围 开发 类推 方法 监管 类型 指标 部分 人时 -
Se(11)---Alert
package testWd;import org.openqa.selenium.Alert;import org.openqa.selenium.By;import org.openqa.sele
2022-06-03 -
Maxwell编译
Maxwell简介Maxwell是一个能实时读取MySQL二进制日志binlog,并生成 JSON 格式的消息,作为生产者发送给 Kafka,Kinesis、RabbitMQ、Redis、Google
2022-06-03 编译 文件 应用 二进制 后生 场景 增量 实时 常见 平台 应用程序 引擎 指标 搜索引擎 数据 文件夹 方案 日志 服务器 格式 -
Hadoop学习--seek重定位流--day04
import java.io.ByteArrayOutputStream;import java.io.FileInputStream;import java.io.FileOutputStream;
2022-06-03 文件 对象 字符 字符串 系统 定位 分布式 只有 接口 目录 顺序 起始 学习 -
hadoop shell
1、查看帮助hadoop fs -help 2、上传hadoop fs -put 如:hadoop fs -put test.log /3、查看文件内容hadoop fs -cat 如:hadoop
2022-06-03 文件 内容 目录 程序 结果 帮助 -
当移动数据分析需求遇到Quick BI
我叫洞幺,是一名大型婚恋网站"我在这等你"的资深老员工, 虽然在公司五六年,还在一线搬砖。"我在这等你"成立15年,目前积累注册用户高达2亿多,在我们网站成功牵手的用户达2千多万。目前我们的公司在CE
2022-06-03 报表 数据 权限 移动 主管 公司 应用 消息 首页 就是 用户 详情 管理 研究 功能 还是 分析 指南 时候 网站 -
Spark 调优之RDD持久化级别及kryo序列化性能测试
我们上篇文章中讲了,RDD的持久化是spark优化中必须掌握的,并且,在内存不足的情况下,我们可以将持久化类型选择为MEMORY_ONLY_SER,减少内存的占用,持久化更多的partition,并且
2022-06-03 序列 内存 大小 数据 时间 问题 代码 就是 情况 空间 方式 磁盘 进一 影响 输入 选择 性能 测试 内容 参数 -
Spark学习之第一个程序打包、提交任务到集群
1、免秘钥登录配置:ssh-keygencd .sshtouch authorized_keyscat id_rsa.pub > authorized_keyschmod 600 authorized
2022-06-03 程序 文件 工具 任务 代码 插件 环境 目录 测试 输入 选择 集群 成功 主题 命令 工程 文件夹 版本 系统 项目 -
Hive基础sql语法(DDL)
前言:经过前面的学习 我们了解到Hive可以使用关系型数据库来存储元数据,而且Hive提供了比较完整的SQL功能 ,这篇文章主要介绍Hive基本的sql语法。首先了解下Hive的数据存储结构,抽象图如
2022-06-03 数据 数据库 语法 信息 字段 目录 分隔符 之间 存储 查询 文件 用户 结构 配置 元素 再次 功能 参数 同时 多个 -
大数据入门基础:Hadoop简介
1.1.什么是hadoop1.hadoop是apache旗下的一套开源软件平台,可以通过http://apache.org/--->project- ->hadoop打开2.Hadoop是开源软件,可
2022-06-03 分布式 数据 网页 软件 服务 技术 系统 问题 存储 功能 海量 索引 处理 不同 业务 任务 子系统 平台 服务器 机器 -
pycharm 提示 Unresolved reference 'webdriver'
pycharm + selenium + python 提示 Unresolved reference 'webdriver' 解决办法:在文件中导入selenium 包,from selenium
2022-06-03 提示 办法 模块 环境 命令 就是 文件 目录 页面 项目 中导 -
Python3数据分析与挖掘建模实战视频
第1章 课程介绍【赠送相关电子书+随堂代码】本章首先介绍本课程是什么,有什么特色,能学习到什么,内容如何安排,需要什么基础,是否适合学习这门课程等。然后对数据分析进行概述,让大家对数据分析的含义和作用
2022-06-03 分析 数据 特征 分类 模型 学习 可视化 评估 课程 内容 因子 数据分析 方法 变换 预处理 小结 理论 关联 接下来 同时 -
Hadoop-2.6.0学习笔记汇总
鲁春利的工作笔记,好记性不如烂笔头Hadoop是适用于大数据处理的、分布式的存储(HDFS)和计算(MapReduce)平台,在Hadoop2.0版本开始引入了yarn来实现资源管理与作业调度。HDF
2022-06-03 笔记 学习 方案 解决方案 数据 存储 管理 安全 分布式 因子 平台 序列 数据处理 数据库 文件 机制 权限 架构 模式 流程