导航：首页 > 互联网科技 >

Hadoop：适合大数据的分布式存储与计算平台（第三讲）

发表于：2025-01-24 作者：千家信息网编辑

千家信息网最后更新 2025年01月24日，1.hadoop：作者：Doug Cutting受Google三篇论文的启发2.版本：Apache：官方版本（1.1.2），学习使用Cloudera：在apache版本的基础上添加功能，实现商业用途

千家信息网最后更新 2025年01月24日Hadoop：适合大数据的分布式存储与计算平台（第三讲）

1.hadoop：

作者：Doug Cutting

受Google三篇论文的启发

2.版本：

Apache：官方版本（1.1.2），学习使用

Cloudera：在apache版本的基础上添加功能，实现商业用途

Yahoo：现在已经集中在apache的版本上

3.hadoop的核心项目

HDFS:(Hadoop Distributed File System) 分布式文件系统

MapReduce:并行计算框架

4.HDFS的架构（主从结构中，主节点负责管理。从节点负责操作）

主从结构（只有一个主节点namenode,可以有很多个从节点datanodes）

namenode负责：

接收用户的操作请求

维护文件系统的目录结构

管理文件与block之间的关系，block与datanode之间的关系

datanode负责：

存储文件

文件被分成block存储在磁盘上

为保证数据安全，文件会有多个副本

5.MapReduce的架构

主从结构（只有一个主节点JobTracker，可以用很多个从节点TaskTrackers）

JobTracker负责：

接收客户提交的计算任务

把计算任务分给TaskTracker执行

监控TaskTracker的执行情况

TaskTrackers负责：

执行JobTracker分配的计算任务

6.Hadoop的特点：

扩容能力（Scalable）:能可靠地存储和处理千兆字节（PB）数据；

成本低（Economical）:可以通过普通机器组成的服务器群来分发以及处理数据；

高效率（Efficient）:通过分发数据，hadoop可以在数据的所在节点上并行处理；

可性靠（Reliable）:hadoop能自动地维护数据的多份副本，并且在任务失败后能自动重新部署计算任务

7.Hadoop集群的物理分布

说明：

a.下方的Rack分别表示两个机柜，分别存放多个服务器，左右两机柜都连接有自己的交换机，左右两个交换机又和总的交换机连接，所以，机柜上的各个服务器之间可以互相访问;

b.机柜上两个主节点分别都独占一台服务器，而从节点组合在一起存放在一台服务器上

8.单节点物理结构

说明：左右图分别表示主节点和从节点，图中主从节点都使用linux系统的服务器，并且都运行在java虚拟机上，因为hadoop是基于java开发的

9.Hadoop部署方式

本地部署（不常用）

伪分布模式（学习使用）

集群模式（公司使用）

10.安装前准备软件

VitualVox

centos

jdk-6u24-linux-xxx.bin

hadoop-1.1.2.tar.gz

11.伪分布模式安装步骤：（6步）

关闭防火墙

修改ip

修改hostname

设置ssh自动登录

安装jdk

安装hadoop

很赞哦！

节点数据文件服务器服务任务结构主从机柜版本存储两个之间交换机模式系统处理副本只有多个数据库的安全要保护哪些东西数据库安全各自的含义是什么生产安全数据库录入数据库的安全性及管理数据库安全策略包含哪些海淀数据库安全审计系统建立农村房屋安全信息数据库易用的数据库客户端支持安全管理连接数据库失败ssl安全错误数据库的锁怎样保障安全招行有什么股票软件开发共享娃娃机小程序软件开发网络安全方案预案软件开发管理难吗软件开发业务员怎么做非关系型数据库包含哪几种类型多管理员共同管理服务器横山网络安全腾讯网络安全部门负责人打表找正数据库平网机升降服务器回零服务器如何调整矿物产量信息软件开发收费完善网络安全处理机制数据库引擎支持什么赤峰学网络技术跑腿代购软件开发 5G网络技术业务应用数据库创建和管理实验报告 DSP系统软件开发流程河北java软件开发常用指南金融科技和互联网金融关系部门网络安全报告网络安全十个方面如何用宝塔转发服务器吉林手机软件开发公司电话百分制怎么算150分制数据库世界传统药物数据库网站金融信息基础数据库短信软件开发的经营内容

千家信息网

千家信息网

Hadoop：适合大数据的分布式存储与计算平台（第三讲）

docker怎么配置环境变量

Linux上如何安装并搭建Nginx服务器

相关文章