千家信息网

大数据入门基础:Hadoop简介

发表于:2025-02-03 作者:千家信息网编辑
千家信息网最后更新 2025年02月03日,1.1.什么是hadoop1.hadoop是apache旗下的一套开源软件平台,可以通过http://apache.org/--->project- ->hadoop打开2.Hadoop是开源软件,可
千家信息网最后更新 2025年02月03日大数据入门基础:Hadoop简介

  1.1.什么是hadoop

  1.hadoop是apache旗下的一套开源软件平台,可以通过http://apache.org/--->project-

   ->hadoop打开

  2.Hadoop是开源软件,可靠的、分布式、可伸缩的。

  3.Hadoop提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理

  4.广义上来说,Hadoop通常是指一个更广泛的概念----hadoop生态圈

  1.2数据分析故事

  1.3数据有多大呢

  数据量进制:

  1G =1024M

  1T = 1024G

  1P = 1024T

  1E = 1024P

  1Z = 1024E

  1Y = 1024Z

  1N = 1024Y

  Hadoop 廉价机器

  去IOE

   IBM//ibm小型机.

  Oracle//oracle数据库服务器 RAC

  EMC//EMC共享存储设备

  1.4分布式

  由分布在不同主机上的进程协同在一起,才能构成整个应用。

1.分布式软件系统(Distributed Software Systems)

  2 该软件系统会划分成多个子系统或模块,各自运行在不同的机器上,

  子系统或模块之间通过网络通信进行协作,实现最终的整体功能

2.分布式应用系统模拟开发

  需求:可以实现由主节点将运算任务发往从节点,并将各从节点上的任务启动;

  程序清单:

  AppMaster

  AppSlave/APPSlaveThread

  Task

  程序运行逻辑流程:

1.5 HADOOP在大数据、云计算中的位置和关系

  1. 云计算是分布式计算、并行计算、网格计算、多核计算、网络存储、虚拟化、负载均衡等传统计算机技术和互联网技术融合发展的产物。借助IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等业务模式,把强大的计算能力提供给终端用户。

  2. 现阶段,云计算的两大底层支撑技术为"虚拟化"和"大数据技术"

1.6 HADOOP产生背景

  1. HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题--如何解决数十亿网页的存储和索引问题。

  2. 2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案

  --分布式文件系统(GFS),可用于处理海量网页的存储

  --分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。

  3. Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独立项目HADOOP,到2008年1月,HADOOP成为Apache顶级项目,迎来了它的快速发展期。

1.7 HADOOP现状


分布式 数据 网页 软件 服务 技术 系统 问题 存储 功能 海量 索引 处理 不同 业务 任务 子系统 平台 服务器 机器 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 软件开发北京工资一般多少 使命召唤ol显示服务器连接 linux服务器证书管理 数据库生成的脚本怎么用 pg数据库怎么创建临时表 哪款服务器cpu可以玩大型单机 软件开发能考一建吗 如何分享csgo社区服务器 加拿大网络安全硕士就业 巢湖学院网络安全 软件开发公司管理层培训 spring引入数据库 国家数据库高级考证报名费 网络安全手机手抄报 易客满无法连接服务器 联联网络技术有限公司 云服务器的网络流量包是啥 数据库请写出删除索引的三种方式 快速网络技术加盟学费多少 计算机网络技术心得和体会 毒霸网址大全找不到服务器怎么办 疆界互联网科技有限公司 网络技术进步如何影响生活 网络安全能用到哪种编程 青少年网络安全手抄报 官渡区正规软件开发市场报价 嘉兴服务器铝合金外壳 网络安全技术贾铁军观后感 郑州安卓应用软件开发多少钱 曹妃甸区口碑好的软件开发
0