大数据入门指南(GitHub开源项目)
发表于:2024-11-23 作者:千家信息网编辑
千家信息网最后更新 2024年11月23日,项目GitHub地址:https://github.com/heibaiying/BigData-Notes前 言大数据技术栈思维导图大数据常用软件安装指南一、Hadoop分布式文件存储系统--HDF
千家信息网最后更新 2024年11月23日大数据入门指南(GitHub开源项目)
项目GitHub地址:https://github.com/heibaiying/BigData-Notes
前 言
- 大数据技术栈思维导图
- 大数据常用软件安装指南
一、Hadoop
- 分布式文件存储系统--HDFS
- 分布式计算框架--MapReduce
- 集群资源管理器--YARN
- Hadoop单机伪集群环境搭建
- Hadoop集群环境搭建
- HDFS常用Shell命令
- HDFS Java API的使用
- 基于Zookeeper搭建Hadoop高可用集群
二、Hive
- Hive简介及核心概念
- Linux环境下Hive的安装部署
- Hive CLI和Beeline命令行的基本使用
- Hive 常用DDL操作
- Hive 分区表和分桶表
- Hive 视图和索引
- Hive常用DML操作
- Hive 数据查询详解
三、Spark
Spark Core :
- Spark简介
- Spark开发环境搭建
- 弹性式数据集RDD
- RDD常用算子详解
- Spark运行模式与作业提交
- Spark累加器与广播变量
- 基于Zookeeper搭建Spark高可用集群
Spark SQL :
- DateFrame 和 DataSet
- Structured API的基本使用
- Spark SQL外部数据源
- Spark SQL常用聚合函数
- Spark SQL JOIN 操作
Spark Streaming :
- Spark Streaming 简介
- Spark Streaming 基本操作
- Spark Streaming 整合 Flume
- Spark Streaming 整合 Kafka
四、Storm
- Storm和流处理简介
- Storm核心概念详解
- Storm单机环境搭建
- Storm集群环境搭建
- Storm编程模型详解
- Storm项目三种打包方式对比分析
- Storm集成Redis详解
- Storm集成HDFS/HBase
- Storm集成Kafka
五、Flink
TODO
六、HBase
- Hbase 简介
- HBase系统架构及数据结构
- HBase基本环境搭建(Standalone /pseudo-distributed mode)
- HBase集群环境搭建
- HBase常用Shell命令
- HBase Java API
- Hbase 过滤器详解
- HBase 协处理器详解
- HBase 容灾与备份
- HBase的SQL中间层--Phoenix
- Spring/Spring Boot 整合 Mybatis + Phoenix
七、Kafka
- Kafka 简介
- 基于Zookeeper搭建Kafka高可用集群
- Kafka 生产者详解
- Kafka 消费者详解
- 深入理解Kafka副本机制
八、Zookeeper
- Zookeeper 简介及核心概念
- Zookeeper单机环境和集群环境搭建
- Zookeeper常用Shell命令
- Zookeeper Java 客户端--Apache Curator
- Zookeeper ACL权限控制
九、Flume
- Flume简介及基本使用
- Linux环境下Flume的安装部署
- Flume整合Kafka
十、Sqoop
- Sqoop简介与安装
- Sqoop的基本使用
十一、Azkaban
- Azkaban简介
- Azkaban3.x 编译及部署
- Azkaban Flow 1.0 的使用
- Azkaban Flow 2.0 的使用
十二、Scala
- Scala简介及开发环境配置
- 基本数据类型和运算符
- 流程控制语句
- 数组--Array
- 集合类型综述
- 常用集合类型之--List & Set
- 常用集合类型之--Map & Tuple
- 类和对象
- 继承和特质
- 函数 & 闭包 & 柯里化
- 模式匹配
- 类型参数
- 隐式转换和隐式参数
十三、公共内容
- 大数据应用常用打包方式
后 记
- 资料分享与开发工具推荐
项目GitHub地址:https://github.com/heibaiying/BigData-Notes
环境
常用
简介
集群
数据
类型
命令
整合
项目
单机
核心
概念
开发
函数
分布式
参数
地址
方式
模式
系统
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
手机服务器老是更新中怎么回事
维普中文科技期刊数据库检索系统
服务器数据被黑客删了
db2数据库磁盘空间
王者荣耀天之骄子服务器在哪个区
软件开发iso27000
计算机3级的网络技术
服务器如何开多个远程连接
软件开发委托合作注意事项
网络安全与生活结课作业
数据库后台怎么运行
软件开发自学免费课程
网络安全如何落地
nas服务器有多大
使命召唤比赛用的是哪个服务器
服务器运维实战视频
网络技术反侦察
2021年网络安全舆情宣传
服务器添加管理员账户密码
ict的通信网络技术特征
长三角网络安全管理
网络安全法确立了谁
orcal数据库过滤重复
服务器什么时候优化
小米2无法连接服务器
麒麟服务器默认密码
昊钦睿云网络技术有限公司
公务员网络安全应急考试
蓬江区如鱼网络技术工作室
思迅软件数据库