千家信息网

大数据需要掌握的知识点(新手)

发表于:2024-11-27 作者:千家信息网编辑
千家信息网最后更新 2024年11月27日,一、学习大数据需要的基础java SE,EE(SSM)90%的大数据框架都是java写的MySQLSQL on HadoopLinux大数据的框架安装在Linux操作系统上二、需要学什么第一方面:大数
千家信息网最后更新 2024年11月27日大数据需要掌握的知识点(新手)

一、学习大数据需要的基础

java SE,EE(SSM)
90%的大数据框架都是java写的
MySQL
SQL on Hadoop
Linux
大数据的框架安装在Linux操作系统上

二、需要学什么

第一方面:大数据离线分析

一般处理T+1数据
Hadoop 2.X:(common、HDFS、MapReduce、YARN)
环境搭建,处理数据的思想
Hive:
大数据数据仓库
通过写SQL对数据进行操作,类似于mysql数据库中的sql
HBase
基于HDFS的NOSQL数据库
面向列的存储

协作框架:
sqoop(桥梁:HDFS 《==》RDBMS)
flume:收集日志文件中信息

调度框架anzkaban,了解:crotab(Linux自带)、zeus(Alibaba)、Oozie(cloudera)

扩展前沿框架:
kylin、impala、ElasticSearch(ES)


注意:关于第一方面的内容我的另一篇博客有详细的总结(是我搜索大量网上资料所得,可以帮你省下不少时间)


第二方面:大数据实时分析

以spark框架为主
Scala:OOP + FP
sparkCore:类比MapReduce
sparkSQL:类比hive
sparkStreaming:实时数据处理
kafka:消息队列
前沿框架扩展:flink
阿里巴巴 blink

第三方面:大数据机器学习(扩展)

spark MLlib:机器学习库
pyspark编程:Python和spark的结合
推荐系统
python数据分析

Python机器学习


大数据框架安装功能来划分

海量数据存储:

HDFS、Hive(本质存储数据还是hdfs)、HBASE、ES

海量数据分析:

MapReduce、Spark、SQL

最原始的Hadoop框架

数据存储:HDFS(Hadoop Distributed File System)
数据分析:MapReduce

Hadoop的起源

Google的三篇论文

虽然Google没有公布这三个产品的源码,
但是他发布了这三个产品的详细设计论文,
奠定了风靡全球的大数据算法的基础!

Google FS HDFS
MapReduce MapReduce
BigTable HBase

将任务分解然后在多台处理能力较弱的计算节点中同时处理,然后将结果合并从而完成大数据处理。

google:android,搜索,大数据框架,人工智能框架
pagerank

Hadoop介绍

大数据绝大多数框架,都属于Apache顶级项目
http://apache.org/
hadoop官网:
http://hadoop.apache.org/

分布式
相对于【集中式】
需要多台机器,进行协助完成。

元数据:记录数据的数据
架构:
主节点Master 老大,管理者
管理
从节点Slave 从属,奴隶,被管理者
干活

Hadoop也是分布式架构

common

HDFS:

主节点:NameNode
决定着数据存储到那个DataNode上
从节点:DataNode
存储数据

MapReduce:

分而治之思想
将海量的数据划分为多个部分,每部分数据进行单独的处理,最后将所有结果进行合并
map task
单独处理每一部分的数据、

reduce task
合并map task的输出

YARN:

分布式集群资源管理框架,管理者集群的资源(Memory,cpu core)
合理调度分配给各个程序(MapReduce)使用
主节点:resourceManager
掌管集群中的资源
从节点:nodeManager
管理每台集群资源

总结:Hadoop的安装部署

都属于java进程,就是启动了JVM进程,运行服务。
HDFS:存储数据,提供分析的数据
NameNode/DataNode
YARN:提供程序运行的资源

ResourceManager/NodeManager




数据 框架 处理 节点 存储 分析 资源 管理 机器 集群 学习 分布式 数据分析 海量 一方 三个 产品 基础 多台 大数 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 中国电信安徽分公司软件开发待遇 软件开发 报价 每天 成都市龙泉驿区网络安全宣传周 拉萨直播软件开发公司 对象数据库 新能源汽车VCU软件开发 万方数据库查检索号 创建指定时间查询数据库 中学生网络安全教育知识内容 苏州东吴证券软件开发 怎么在数据库的表中输入记录 网络安全我们能做什么 芜湖舟阳网络技术有限公司 小学网络安全教育朗诵 软件开发一定要数学好吗 浦东新区新能源软件开发收购价格 安全狗服务器版5.0 数据库视频下载 issn文献在哪个数据库 大话西游手游空山新雨服务器 四川一佰分网络技术有限公司 服务器远程连接管理工具 息县软件开发项目管理在线咨询 租用一个服务器要多少钱一个月 公安信息网络安全监察工资 网络数据库储存空间优化系统 湖南信息学院计算机网络技术 湖北省第十次网络安全答题 oracle数据库xp ado 访问 远程数据库
0