千家信息网

Hadoop中的MapReduce是什么

发表于:2025-01-31 作者:千家信息网编辑
千家信息网最后更新 2025年01月31日,小编给大家分享一下Hadoop中的MapReduce是什么,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!在MapReduc
千家信息网最后更新 2025年01月31日Hadoop中的MapReduce是什么

小编给大家分享一下Hadoop中的MapReduce是什么,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!

在MapReduce中,它也是主从结构,主节点:JobTracker,从节点:TaskTracker。主节点只有一个从节点有很多个,主节点在主机上,从节点分布到其他机器上。

JobTracker

作用:

1、负责接收用户提交的作业;

2、负责把计算任务分给TaskTracker执行;

3、监控TaskTracker的执行情况;

TaskTracker:

作用:

1、执行JobTracker分配的计算任务;

JobClient

概念:是用户作业与JobTracker交互的主要接口。

作用:

1、负责提交作业,负责启动;

2、跟踪任务执行;

3、访问任务状态和日志等;

Hadoop中基于RPC的通信协议

1、JobSubmissionProtocol:是JobClient与JobTracker通信的接口。

执行过程:TaskTracker每隔一段时间向JobTracker发送hearbeat(心跳机制)提交当前TaskTracker所在机

器的内存,CPU,磁盘等状态信息,是否可以接收新任务等信息;JobTracker接收到hearbeat

给TaskTracker返回需要所做的job或task操作,是否开启新的任务。TaskTracker可以从取

得JobTracker取得当前文件系统路径,需要执行Job的Jar文件路径等.

2、InterTrackerProtocol:是TaskTracker与JobTracker通信的接口。

作用:主要用来提交,执行Job和取得当前Job状态;JobClient可以通过此协议提交Job(submitJob),

取得当前Job的参数,状态,Counter,Task状态,文件系统路径,jar文件路径,所有Job的状

态,还有Job队列的信息,此外JobClient还可以提交KillJob和设定Job优先级等任务到 JobTracker。

MapReduce中驱动默认设置

InputFormat

TextInputFormat

MapperClass

IdentityMapper

MapOutputKeyClass

LongWritable

MapOutputValueClass

Text

PartitionerClass

HashPartitioner

ReduceClass

IdentityReduce

OutputKeyClass

LongWritable

OutputValueClass

Text

OutputFormatClass

TextOutputFormat

MapReduce中常见的算法

1、单词计数

2、数据去重

3、排序

4、Top k

5、选择

6、投影

7、分组

8、多表连接

9、单表关联

MapReduce原理

MapReduce为什么能实现失败检测?

正是由于采用了无共享框架,所有MapReduce才能够实现失败检测,这也意味着各个任务之间彼此独立。

MapReduce作业

MapReduce作业(Job)是客户端需要执行的一个工作单元:它包括输入数据,MapReduce程序和配置信息等。

注意:在MapReduce中不能处理文件名以_(下划线)开头的文件.

以上是"Hadoop中的MapReduce是什么"这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!

0