千家信息网

零基础学习大数据Hadoop需要什么准备?Hadoop如何发展起来的?

发表于:2025-02-02 作者:千家信息网编辑
千家信息网最后更新 2025年02月02日,Hadoop是一个由Apache基金会所开发的分布式系统基础架构,是用Java语言开发的一个开源分布式计算平台,适合大数据的分布式存储和计算平台。今天加米谷大数据就来简单介绍一下Hadoop的简史,以
千家信息网最后更新 2025年02月02日零基础学习大数据Hadoop需要什么准备?Hadoop如何发展起来的?

Hadoop是一个由Apache基金会所开发的分布式系统基础架构,是用Java语言开发的一个开源分布式计算平台,适合大数据的分布式存储和计算平台。今天加米谷大数据就来简单介绍一下Hadoop的简史,以及学习Hadoop前要做哪些准备。
狭义上,Hadoop就是单独指代Hadoop这个软件;

广义上,Hadoop指代大数据的一个生态圈,包括很多其他的软件。

Hadoop的起源

1、2001年,Nutch问世。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题;

2、2003-2004年,Google发布论文:GFS、MapReduce,受此启发的Doug Cutting等人实现了NDFS(HDFS的前身)和MapReduce机制,使Nutch性能飙升;

GFS:Google的分布式文件系统Google File System

MapReduce:Google的MapReduce开源分布式并行计算框架

3、2005年,Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会;

4、2006年,Hadoop(HDFS+MapReduce)从Nutch中剥离成为独立项目。Doug Cutting加入Yahoo,领导Hadoop的开发。

.在入门学习大数据的过程当中有遇见学习,行业,缺乏系统学习路线,系统学习规划,欢迎你加入我的大数据学习交流裙:529867072 ,裙文件有我这几年整理的大数据学习手册,开发工具,PDF文档书籍,你可以自行下载。

Hadoop的发展简史

5、2006年,Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展;Yahoo建设了第一个Hadoop集群用于开发;4月,第一个Apache Hadoop发布;11月,Google发表了Bigtable论文,Hbase的创建的灵感来源;

BigTable:一个大型的分布式数据库

演变关系:

GFS-->HDFS

Google MapReduce-->Hadoop MapReduce

BigTable-->HBase

6、2007年,第一个Hadoop用户组会议召开,社区贡献开始急剧上升;同年,Facebook开始使用Hadoop,百度开始使用Hadoop做离线处理,中国移动开始研究使用Hadoop;

7、2008年,Hive、HBase问世,Hadoop成为Apache顶级项目。8月,第一个Hadoop商业化公司Cloudera成立。同年,淘宝开始使用Hadoop;

8、2009年-2012年,Hadoop不断发展。

2009年Cloudera推出CDH平台(首个Hadoop发行版),完全由开放源码软件组成。《Hadoop权威指南》初版出版(被誉为Hadoop圣经);2010年,HBase、Hive( Facebook) 、Pig脱离Hadoop,均成为Apache顶级项目;Hadoop社区建立大量新组件(Crunch,Sqoop,Flume,Oozie等)来扩展Hadoop的使用场景和可用性;2011年,ZooKeeper 脱离Hadoop,成为Apache顶级项目;加米谷大数据培训机构,6月大数据开发0基础班、提高班,即将开课,预报名中... 2012年,Yarn成为Hadoop子项目;

9、2014年,Spark逐渐代替MapReduce成为Hadoop的缺省执行引擎,并成为Apache基金会顶级项目。

Hadoop能干什么?

大数据存储:分布式存储

日志处理:擅长日志分析

ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库

机器学习: 比如Apache Mahout项目

搜索引擎:Hadoop + lucene实现

数据挖掘:目前比较流行的广告推荐,个性化广告推荐

Hadoop是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。

学习Hadoop前的准备:

准备电脑(用于学习):内存最少8G、CPU起码四核(cpu i5 系列)

支持平台:Linux(CentOS)(产品开发和运行的平台)

所需软件:以Linux为例

Java8.0,必须安装,建议选择Oracle公司发行的Java版本。
ssh 必须安装并且保证 sshd一直运行,以便用Hadoop 脚本管理远端Hadoop守护进程。
安装所需软件:以Linux为例

$ sudo yum install ssh

$ sudo yum install rsync

下载Hadoop的发行版并解压安装

数据 学习 分布式 项目 开发 平台 软件 系统 顶级 准备 发展 基金 引擎 发行 处理 存储 基础 公司 基金会 子项 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 服务器输入密码不对怎么办 多盟无线网络技术北京 浙江图腾机柜服务器机柜虚拟主机 人工智能基础软件开发 网络安全法的过程 璧山网络安全展 我是网络安全宣传员演讲方案 英雄联盟服务器不显示ms 南京软件开发氛围如何 江西魅狐互联网科技有限公司 网络安全学教育知识竞赛试题 海康ds6701hw视频服务器密码锁定 中国科技信息期刊遴选数据库 数据库系统概念 脚本之家 网络安全应急演练工作方案 中国人民解放军医院数据库名称 电脑还原会损坏数据库吗 上海电脑软件开发定做 vf创建数据库 苹果x连接服务器出现问题怎么办 宿迁市启鹏网络技术有限公司 175平台怎么管理服务器 江苏新型网络技术怎么样 简述网络安全的设计步骤 人力资源如何进行软件开发的面试 linux怎么查服务器是几核 建立数据库的命令格式 两会网络安全日报 ado数据库技术计算 博山供应链软件开发定制
0