导航：首页 > 互联网科技 >

大数据需要掌握的知识点（新手）

发表于：2025-02-23 作者：千家信息网编辑

千家信息网最后更新 2025年02月23日，一、学习大数据需要的基础java SE，EE(SSM)90%的大数据框架都是java写的MySQLSQL on HadoopLinux大数据的框架安装在Linux操作系统上二、需要学什么第一方面：大数

千家信息网最后更新 2025年02月23日大数据需要掌握的知识点（新手）

一、学习大数据需要的基础

java SE，EE(SSM)
90%的大数据框架都是java写的
MySQL
SQL on Hadoop
Linux
大数据的框架安装在Linux操作系统上

二、需要学什么

第一方面：大数据离线分析

一般处理T+1数据
Hadoop 2.X：（common、HDFS、MapReduce、YARN）
环境搭建，处理数据的思想
Hive:
大数据数据仓库
通过写SQL对数据进行操作，类似于mysql数据库中的sql
HBase
基于HDFS的NOSQL数据库
面向列的存储

协作框架：
sqoop（桥梁：HDFS 《==》RDBMS）
flume:收集日志文件中信息

调度框架anzkaban,了解：crotab（Linux自带）、zeus(Alibaba)、Oozie(cloudera)

扩展前沿框架：
kylin、impala、ElasticSearch（ES）

注意：关于第一方面的内容我的另一篇博客有详细的总结（是我搜索大量网上资料所得，可以帮你省下不少时间）

第二方面：大数据实时分析

以spark框架为主
Scala：OOP + FP
sparkCore:类比MapReduce
sparkSQL:类比hive
sparkStreaming：实时数据处理
kafka:消息队列
前沿框架扩展：flink
阿里巴巴 blink

第三方面：大数据机器学习（扩展）

spark MLlib:机器学习库
pyspark编程：Python和spark的结合
推荐系统
python数据分析

Python机器学习

大数据框架安装功能来划分

海量数据存储：

HDFS、Hive（本质存储数据还是hdfs）、HBASE、ES

海量数据分析：

MapReduce、Spark、SQL

最原始的Hadoop框架

数据存储：HDFS（Hadoop Distributed File System）
数据分析：MapReduce

Hadoop的起源

Google的三篇论文

虽然Google没有公布这三个产品的源码，
但是他发布了这三个产品的详细设计论文，
奠定了风靡全球的大数据算法的基础！

Google FS HDFS

MapReduce MapReduce

BigTable HBase

将任务分解然后在多台处理能力较弱的计算节点中同时处理，然后将结果合并从而完成大数据处理。

google:android,搜索，大数据框架，人工智能框架
pagerank

Hadoop介绍

大数据绝大多数框架，都属于Apache顶级项目
http://apache.org/
hadoop官网：
http://hadoop.apache.org/

分布式
相对于【集中式】
需要多台机器，进行协助完成。

元数据：记录数据的数据
架构：
主节点Master 老大，管理者
管理
从节点Slave 从属，奴隶，被管理者
干活