千家信息网

MapReduce有什么特点

发表于:2024-10-20 作者:千家信息网编辑
千家信息网最后更新 2024年10月20日,这篇文章给大家分享的是有关MapReduce有什么特点的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。MapReduce特点 易于编程(熟悉之后确实很简单,大多数是map和
千家信息网最后更新 2024年10月20日MapReduce有什么特点

这篇文章给大家分享的是有关MapReduce有什么特点的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。

MapReduce特点
 易于编程(熟悉之后确实很简单,大多数是map和reduce两个部分。hive和pig让mapreduce更加简单)
 良好的扩展性(简单的添加机器就可以实现)
 高容错性(job中任务部分失败,可以重新执行)
 适合PB级以上海量数据的离线处理
MapReduce不擅长
 实时计算
 像MySQL一样,在毫秒级或者秒级内返回结果(可以参考Spark或HBase,HBase随机读写性能好,统计不太好)
 流式计算
 MapReduce的输入数据集是静态的,不能动态变化
 MapReduce自身的设计特点决定了数据源必须是静态的(可以考虑Storm)
 DAG计算
 多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出(Tez)

MapReduce将作业的整个运行过程分为两个阶段
Map阶段和Reduce阶段
 Map阶段由一定数量的Map Task组成
 输入数据格式解析:InputFormat
 输入数据处理:Mapper
 数据分组:Partitioner
 Reduce阶段由一定数量的Reduce Task组成
 数据远程拷贝
 数据按照key排序
 数据处理:Reducer
 数据输出格式:OutputFormat

 默认TextInputFormat对文件切分,并处理每一个Split,提供RecordReader生成key/value
TextInputFormat:Key是行在文件中的偏移量,value是行内容若行被截断,则读取下一个block的前几个字符
设计到的概念 
Block
 HDFS中最小的数据存储单位默认是64MB
 Spit
 MapReduce中最小的计算单元默认与Block一一对应
 Block与Split
 Split与Block是对应关系是任意的,可由用户控制

Map阶段
 InputFormat(默认TextInputFormat)
 Mapper
 Partitioner
 Sort(可选)
 Combiner(local reducer)(可选)

Reduce阶段
 Sort
 Reducer
 OutputFormat(默认TextOutputFormat)

Combiner
Combiner可做看local reducer合并相同的key对应的value(wordcount例子)通常与Reducer逻辑一样好处
减少Map Task输出数据量(磁盘IO)
减少Reduce-Map网络传输数据量(网络IO)
结果可叠加
Sum(YES!),Average(NO!)
Partitioner
 Partitioner决定了Map Task输出的每条数据交给哪个Reduce Task处理默认实现:hash(key) mod R R是Reduce Task数目
 允许用户自定义,很多情况需自定义Partitioner
 比如"hash(hostname(URL)) mod R"确保相同域名的网页交给同一个Reduce Task处理

感谢各位的阅读!关于"MapReduce有什么特点"这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!

数据 阶段 处理 特点 输入 输出 内容 最小 相同 两个 应用程序 数据处理 数量 文件 更多 格式 用户 程序 篇文章 结果 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 基础数据库数据 网络安全靶场设计方案 event软件开发 数据备份与网络安全的关系 维护升级和软件开发一样 延庆区综合网络技术服务报价行情 网络安全英语作文的英文 赛维互联网科技有限公司 服务器开设vps 国家安全法包括网络安全 数据库安全性的保证机制 广东手机软件开发哪家好 计算机网络技术实习岗位 怎么才能算是连接了别人的服务器 3g串口服务器 h3c服务器查看设备信息 数据库备份恢复github 信息安全软件开发管理规范 感动汉字盘符服务器的风 软件开发应该交什么印花税 天翼云服务器怎么挂游戏 jdbc连接数据库封装 个人软件开发税费 重庆紫瑞网络技术有限公司 网络安全-技术与实践 内存数据库技术学校 济南嵌入式软件开发工程师招聘 软件开发中级职称去那里报名考试 信息安全软件开发管理规范 宝山区海航软件开发哪家好
0