hadoop中各个组件的介绍
发表于:2024-11-27 作者:千家信息网编辑
千家信息网最后更新 2024年11月27日,这篇文章主要介绍"hadoop中各个组件的介绍",在日常操作中,相信很多人在hadoop中各个组件的介绍问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答"hadoop中各个
千家信息网最后更新 2024年11月27日hadoop中各个组件的介绍
这篇文章主要介绍"hadoop中各个组件的介绍",在日常操作中,相信很多人在hadoop中各个组件的介绍问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答"hadoop中各个组件的介绍"的疑惑有所帮助!接下来,请跟着小编一起来学习吧!
HDFS(Hadoop distribute file system)--Hadoop生态系统的基础组件Hadoop分布式文件系统。它是其他一些工具的基础HDFS的机制是将大量数据分布到计算机集群上,数据一次写入,但可以多次读取用于分析。HDFS让Hadoop可以最大化利用磁盘。
HBase-- 一个构建在HDFS之上的面向列的NoSql数据库,HBase用于对打量数据进行快速读取/写入。HBase将Zookeeper用于自身的管理,以保证其所有组件都正在运行。HBase使得Hadoop可以最大化利用内存。
MapReduce--MapReduce是Hadoop的主要执行框架,它是一个用于分布式并行数据处理的编程模型,将作业分为mapping阶段和reduce阶段。开发人员谓Hadoop编写MapReduce作业,并使用HDFS中存储的数据,而HDFS可以保证快速的数据访问。鉴于MapReduce作业的特性,Hadoop以并行的方式将处理过程移向数据。MapReduce使得Hadoop可以最大化利用CPU。
Zookeeper--Zookeeper是Hadoop的分布式协调服务。Zookeeper被设计成可以在机器集群上运行,是一个具有高度可用性的服务,用于Hadoop操作的管理,而且很多Hadoop组件都依赖它。 Oozie-- Oozie是一个北极测很难过到Hadoop软件栈中的可扩展的Workflow系统。用于协调多个MapReduce作业的执行。它能够处理大量的复杂性,基于外部事件来管理执行。 Pig--Pig是对MapReduce编程复杂性的抽象,Pig平台包含用于分析Hadoop数据集的执行环境和脚本语言(Pig Latin)。它的编译器将Pig Latin翻译为MapReduce程序序列。
Hive--类似于SQL的高级语言,用于执行对存储在Hadoop中数据的查询,Hive允许不熟悉MapReduce的开发人员编写数据查询语句,它会将翻译为Hadoop中的MapReduce作业。类似于Pig。Hive是一个抽象层,适合于较熟悉SQL而不是java编程的数据库分析师。
Hadoop生态系统中还包含一些用于与其他企业级应用进行集成的框架,例如上图所示的Sqoop和Flume: Sqoop是一个连通性工具,用于在关系型数据库和数据仓库Hadoop之间移动数据。Sqoop利用数据库来描述导入/导出数据的模式,并使用MapReduce实现并行操作和容错。
Fulme是一个分布式的、具有可靠性和高可用性的服务,用于从单独的机器上将大量数据高效的收集、聚合并移动到HDFS中。它给予一个简单灵活的架构,童工流式数据操所。它借助于简单可扩展的数据模型,允许将来自企业中多台机器上的数据移到Hadoop中。
hbase 是架构在hadoop之上的分布式数据库,hive即hive sql,用户可以通过写hive sql,hive负责将sql生成相关的mapreduce作业,并提交给hadoop集群来运行这样的作业。hive可以直接分析hdfs上的文件,也可以分析hbase表数据。一般hive是安装在namenode上运行。
简单来说hive用来批量处理数据,HBase用来快速索引数据。
HBase是一个分布式的基于列存储的非关系型数据库。HBase的查询效率很高,主要由于查询和展示结果。
hive是分布式的关系型数据库。主要用来并行分布式 处理 大量数据。hive中的所有查询除了"select * from table;"都是需要通过Map\Reduce的方式来执行的。由于要走Map\Reduce,即使一个只有1行1列的表,如果不是通过select * from table;方式来查询的,可能也需要8、9秒。但hive比较擅长处理大量数据。当要处理的数据很多,并且Hadoop集群有足够的规模,这时就能体现出它的优势。
到此,关于"hadoop中各个组件的介绍"的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注网站,小编会继续努力为大家带来更多实用的文章!
数据
分布式
组件
数据库
作业
处理
查询
分析
系统
集群
学习
运行
最大
方式
机器
存储
服务
管理
编程
复杂
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
近期网络安全事件有哪些
计算机网络技术直招士官吗
数据库root的密码忘记
移动网络安全保护的内容
贺州计算机网络技术学校
软件开发语言机构
多台服务器如何管理
杭州互联网金融加科技
陕西果蔬配送软件开发
网络数据库编程语言
数据库创建索引计划
江阴ibm服务器维修点电话热线
计算机网络技术实验仿真
参数配置到配置文件数据库
服务器最大并发数
安全教育课网络安全PPT
双鸭山计算机网络技术
无线服务器域名多少钱
信息网络安全的核心技术
手机软件开发工作的重要性
数据库 scan
数据库基础相关技术要求
网络安全协议浅析论文
绝地求生服务器在哪里
excel数据库运用
中国移动网络安全认证
陕西惠普服务器虚拟化多少钱
it软件开发难不难学
通信软件开发需要的技能
数据库四级2019