Hadoop2的伪分式怎么搭建
发表于:2024-11-25 作者:千家信息网编辑
千家信息网最后更新 2024年11月25日,本篇内容介绍了"Hadoop2的伪分式怎么搭建"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!1.Ha
千家信息网最后更新 2024年11月25日Hadoop2的伪分式怎么搭建1.Hadoop生态体系图
5.如何解决海量存储----HDFS的简单概念
8.搭建环境过程中的问题
本篇内容介绍了"Hadoop2的伪分式怎么搭建"的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
1.Hadoop生态体系图
1. 这一切是如何开始的-Web上庞大的数据!2. 使用Nutch抓取Web数据3. 要保存Web上庞大的数据--HDFS应运而生4. 如何使用这些庞大的数据?5. 采用Java或任何的流/管道语言构建MapReduce框架用于编码并进行分析6. 如何获取Web日志,点击流,Apache日志,服务器日志等非结构化数据--fuse,webdav, chukwa, flume, Scribe7. Hiho和sqoop将数据加载到HDFS中,关系型数据库也能够加入到Hadoop队伍中8. MapReduce编程需要的高级接口--Pig, Hive, Jaql.9. 具有先进的UI报表功能的BI工具- Intellicus10. Map-Reduce处理过程使用的工作流工具及高级语言11. 监控、管理hadoop,运行jobs/hive,查看HDFS的高级视图-Hue,karmasphere,eclipse plugin,cacti,ganglia12. 支持框架-Avro (进行序列化), Zookeeper (用于协同)13. 更多高级接口--Mahout, Elastic map Reduce14. 同样可以进行OLTP--Hbase
2.Hadoop的简介
Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。实际场景:海量日志如何处理,海量网页数据如何处理hdfs 解决了海量数据的分布式存储,高可靠,易扩展,高吞吐量mapreduce 解决了海量数据的分析处理,通用性强,易开发,健壮性
Common:一组分布式文件系统和通用I/O的组件与接口(序列化、Java RPC和持久化数据结构)。MapReduce:分布式数据处理模型和执行环境,运行于大型商用机集群。HDFS:分布式文件系统,运行于大型商用机集群。Zookeeper:一个分布式、可用性高的协调服务,提供分布式锁之类的基本服务用于构建分布式应用。HBase:一个分布式、按列存储数据库,使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)。Pig:一种数据流语言和运行环境,用以检索非常大的数据集,运行在MapReduce和HDFS的集群上。Hive:一个分布式、按列存储的数据仓库,管理HDFS中存储的数据,并提供基于SQL的查询语言(由运行时引起翻译成MapReduce作业)用以查询数据。Mahout:一个在Hadoop上运行的可扩展的机器学习和数据挖掘类库(例如分类和聚类算法)。Avro:一种支持高效、跨语言的RPC以及永久存储数据的序列化系统。Sqoop:在数据库和HDFS之间高效传输数据的工具。最底层平台 hdfs yarn mapreduce spark应用层 hbase hive pig sparkSQL nutch 工具类 zookeeper flume
3.集中存储和运算的瓶颈
4.云计算中的虚拟化和Hadoop技术上的区别
5.如何解决海量存储----HDFS的简单概念
普通的NFS和HDFS的区别以及其各自的特点
1. 优点:透明性,编程方便,容易,只须open,close,fread一些库的操作。2. 缺点:无数据冗余性,所有数据在一台机器上,数据复制时,可能有带宽限制。 HDFS就是为克服NFS的缺点,进行设计.存储可靠,读取方便,且与mapreduce整合到一起.可伸缩性强,高度可配置(一堆的配置文件).支持web接口:http://namenode-name:50070/流量文件系统.同时支持shell界面操作.
HDFS的整体架构图:详解见以后博客
HDFS在官方文档中的架构
6.搭建Hadoop伪分布式集群
什么是伪分布式集群:
环境准备: 虚拟机:VMware 10 操作系统:CentOS 6 JDK:1.7 Hadoop:2.4 客户端访问工具:secureCRT 用户名:hadoop
6.1 前期网络环境准备 在vmware中更改了虚拟机的网络类型,--->NAT方式,(虚拟交换机的ip可以从vmvare的edit-->vertual network editor看到) 根据这个交换机(网关)的地址,来设置我们的客户端windown7的ip(Vmnet8这块网卡) 启动linux主机,修改linux系统的ip地址(通过图形界面修改),修改完成之后在terminal(命令行终端)中切换到root用户执行命令重启网络服务来让ip生效 修改主机名: 在root身份下,用命令修改 vi /etc/sysconfig/network 把hostname改为 yun-10-1 添加主机名和ip的映射 在root身份下 vi /etc/hosts 添加一行 192.168.2.100 yun-10-1 讲hadoop这个用户添加到sudoers里面去 在root身份下 vi /etc/sudoers,在文件中找到 root ALL=ALL ALL ,下面加一行hadoop的 停止防火墙服务 在root身份下 service iptables stop 关闭防火墙的自动启动 在root身份下 chkconfig iptables off reboot命令重启机器 用ping命令检测一下windows主机和linux服务器之间的网络连通性 进入linux修改图形界面启动配置,不要再启动图形界面了,在root身份下, vi /etc/inittab 将其改为id:3:initdefault: 再次reboot,将不会启动到图形界面了 (当以后你想启动图形界面的时候可以在命令行下敲startx (init 5) ,在图形界面下你想关闭图形界面,敲命令init 3)
6.2 安装JDK 用终端连接linux服务器进行软件的安装(用secureCRT来连接ALT+P) 安装jdk --用filezilla工具上传jdk的压缩包 --解压jdk的压缩包到一个专门的安装目录下 /home/hadoop/app --在hadoop的主目录下敲命令 tar -zxvf jdk-7u65-linux-i586.tar.gz -C ./app --配置java的环境变量 sudo vi /etc/profile 在文件的最后添加: export JAVA_HOME=/home/hadoop/app/jdk1.7.0_65 export PATH=$PATH:$JAVA_HOME/bin --让配置生效, source /etc/profile --Javac,Java -version检测
6.3 安装Hadoop以及配置相关信息 a.用secureCRT工具上传hadoop的安装包 b.把hadoop解压到app目录中去 tar -zxvf hadoop-2.4.1.tar.gz -C ./app/ c.修改hadoop的5大配置文件,位置在 /home/hadoop/app/hadoop-2.4.1/etc/hadoop目录 d.配置一下hadoop的环境变量 sudo vi /etc/profile
----vi hadoop-env.sh 改其中的JAVA_HOME为我们安装jdk的路径JAVA_HOME=/home/hadoop/app/jdk1.7.0_65
----vi core-site.xmlfs.defaultFS hdfs://yun-10-1:9000 hadoop.tmp.dir /home/hadoop/app/hadoop-2.4.1/tmp
----vi hdfs-site.xmldfs.replication 1
-- 先修改文件名 mv mapred-site.xml.template mapred-site.xml 在编辑 vi mapred-site.xmlmapreduce.framework.name yarn
-- vi yarn-site.xmlyarn.resourcemanager.hostname yun-10-1 yarn.nodemanager.aux-services mapreduce_shuffle
测试Hadoop伪分布式:格式化HDFS,启动HDFS,Yarn,进程查看以及网页浏览.测试时主机名改为yun10-0.结果证明测试,成功!!!
7.SSH协议详解和流程使用
见另外博客地址.http://my.oschina.net/codeWatching/blog/342253
8.搭建环境过程中的问题
Vmware中Clone虚拟机后提示"No such device eth0"解决方法1:直接删除配置文件 直接删除配置文件,重启之后Linux就会找到新的网卡了。 sudo rm /etc/udev/rules.d/70-persistent-net.rules 重启后如果网卡起不来,删除/etc/sysconfig/networking-scripts/ifcfg-eth0的如下行,或者修改为vmware分配的新MAC地址:HWADDR="XX:XX:XX:XX:XX:XX" 重启网卡 service network restart 方法2:修正配置文件 修改配置文件,将原本的eth0删除,然后修改eth2的NAME="eth2"为NAME="eth0",重启之后Linux就会使用新的配置文件设置网卡了。 修改前的 /etc/udev/rules.d/70-persistent-net.rules 像这样: # PCI device 0x1022:0x2000 (pcnet32)SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="00:0c:29:50:XX:XX", ATTR{dev_id}=="0x0", ATTR{type}=="1", KERNEL=="eth*", NAME="eth0" # PCI device 0x1022:0x2000 (pcnet32)SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="00:0c:29:85:XX:XX", ATTR{dev_id}=="0x0", ATTR{type}=="1", KERNEL=="eth*", NAME="eth2" 删除掉eth0那一行,保留余下的行: # PCI device 0x1022:0x2000 (pcnet32)SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="00:0c:29:85:XX:XX", ATTR{dev_id}=="0x0", ATTR{type}=="1", KERNEL=="eth*", NAME="eth0"
"Hadoop2的伪分式怎么搭建"的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注网站,小编将为大家输出更多高质量的实用文章!
数据
分布式
文件
配置
存储
命令
界面
运行
图形
工具
环境
系统
服务
身份
集群
主机
海量
网卡
语言
支持
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
黄浦区一站式软件开发诚信推荐
河北电信服务器租用云主机
腾讯服务器ip能更换吗
数据库超时时间oracle设置
软件开发ba是什么意思
2002年的联想服务器
国内时间服务器同步时钟主流品牌
如何下载阿里云服务器的文件
小服务器raid5
局域网服务器如何做加速
广东方便软件开发公司
爱思助手服务器维护中
阿里云网络安全总经理
studio数据库表不显示
武汉众信天诚网络技术公司
还原数据库时发生异常
大学网络安全知识
郑州工业软件开发有用吗
四川工控软件开发收费报价表
如何判断两个数据库的关系
极路由3搭建服务器
低配版服务器繁忙
开启数据库服务器的方式
电脑网络技术工作服
服务器管理实验心得
佛教高僧谈网络技术
云服务器挂机配置
催化网络安全产业投资
枝江市软件开发项目管理
国家电网的网络安全