千家信息网

Hadoop环境如何实现离线安装

发表于:2024-11-22 作者:千家信息网编辑
千家信息网最后更新 2024年11月22日,这篇文章主要为大家展示了"Hadoop环境如何实现离线安装",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"Hadoop环境如何实现离线安装"这篇文章吧。1.
千家信息网最后更新 2024年11月22日Hadoop环境如何实现离线安装

这篇文章主要为大家展示了"Hadoop环境如何实现离线安装",内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下"Hadoop环境如何实现离线安装"这篇文章吧。

1. 软件下载

在离线安装服务器前,需要在内网搭建一台HTTP服务器,以供安装相应的软件。软件需要提前下载到本地,这里不再赘述如何下载。

1.1. Linux安装包

CentOS下载地址:http://isoredirect.centos.org/centos/6/isos/x86_64/

如果您有DVD安装包(CentOS-6.5-x86_64-bin-DVD1to2),无需下载。

1.2. Hadoop安装包

CDH: http://archive.cloudera.com/cdh5/redhat/6/x86_64/cdh/

CM: http://archive.cloudera.com/cm4/redhat/6/x86_64/cm/

Impala: http://archive.cloudera.com/impala/redhat/6/x86_64/impala/

官网地址: http://www.cloudera.com/

注:在下载RPM包是请将noarch目录下面的包一并下载。

2. Yum源配置

2.1. 搭建HTTP服务器

默认安装的CentOS系统自带了Apache的HTTP服务,将其启动即可。

# service httpd start

在浏览器中输入:http://localhost 验证

1.1. Linux源

在安装Hadoop前,可能会需要除安装系统时带的组件外,还需要其它一些未安装的组件,这时就需要Linux安装包。再创建yum软件源前,请先删除或者备份系统自带的源。

# cd /etc/yum.repos.d/

# rm -rf *.repo

1.1.1. 虚拟机镜像源

请将镜像加载到虚拟光驱中,在服务器的文件夹中建立软连接,连接到虚拟光驱。CentOS bin安装包包括两个ISO镜像,建议建立两个虚拟光驱,将两个镜像全部加载进来。

# cd /var/www/html

# ln -s /media/CentOS_6.5_Final centos

# ln -s /media/CentOS_6.5_Final_ centos2

创建系统软件源

# cd /etc/yum.repos.d/

在此目录下面创建 centos.repo的源,内容如下:

1.1.2. 硬盘源

直接将系统安装盘的内容拷贝到硬盘上,在http服务器目录的文件夹中建立软连接,连接到系统安装盘所在的文件夹上。

# cd /var/www/html

# ln -s /tmp/CentOS_6.5_Final centos

# ln -s /tmp/CentOS_6.5_Final_ centos2

创建系统软件源

# cd /etc/yum.repos.d/

在此目录下面创建 centos.repo的源,内容如下:

1.2. Hadoop源

Hadoop源有三部分CDH、CM、Impala,我们借助CM在所有节点上进行安装批量安装Hadoop,并在日后进行管理。

Cloudera Manager (CM) 是业内第一家使用图形化界面管理Hadoop集群的工具。使用CM可将部署时间从几天缩短到几小时, 它提供一个集群范围内的、实时的运行节点及服务视图,它能够用来改变跨集群内的配置。它还包括了报告和诊断工具来观察集群的性能和利用率。

将下载下来的CDH、CM、Impala等上传到HTTP服务器,暂定放在 tmp文件夹下面,并生成rpm包的系统校验文件repodata文件夹,同时在http目录下面创建软链接。如果没有安装ftp服务,请先安装ftp服务。

创建CM源,如果是用CM进行安装Hadoop,只需要创建CM源,安装CM,当用CM进行批量安装时,选择系统本地源时,CM会创建相应的数据源。

1. 安装ftp服务(可选)

# yum install vsftp

2. 创建repo源校验,如果系统没有安装组件createrepo,请先安装。

# yum install createrepo

# cd /tmp

# createrepo CDH

# createrepo CM

# createrepo Impala

3. 创建软链接

# cd /var/www/html

# ln -s /tmp/CDH cdh5

# ln -s /tmp/CM manager

# ln -s /tmp/Impala impala

4. 创建系统源

# cd /etc/yum.repos.d

# vi myrepo.repo

2. Linux环境配置

2.1. 创建用户

在所有的结点服务器上建立相同的用户名ai和密码asiainfo。添加此设置为了cm批量安装时输入相同的用户名和密码。

# useradd ai

# passwd ai

2.2. 网络配置

为每台机器配置固定IP,并设置开机自动连接。

安装完cm后尽量不要修改IP, cm在安装时会绑定IP, 修改IP会造成cm不能正确识别主机.

2.3. 修改主机名(hostname)

用root用户打开network,修改为你想要的名字

# vi /etc/sysconfig/network

2.4. 关闭selinux

# vi /etc/selinux/config

2.5. 子节点互通配置

# vi /etc/hosts

2.6. 用户sudo功能设置

添加此设置为了cm批量安装时输入相同的用户名和密码。

安装下图红框里面内容格式修改为

ai ALL=(ALL) NOPASSWD:ALL

# vi /etc/sudoers

2.7. 关闭防火墙

关闭防火墙,并加入到开机自启动里面,即开机就关闭防火墙。

# service iptables stop

# service iptables status

# vi /etc/rc.local

2.8. 配置ssh免key(可选)

# ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

# ssh-copy-id 10.0.7.238 (10.0.7.238是你具体要和谁免key,自己也要和自己设置免key)

2.9. 配置时间同步(需重写)
2.9.1. 修改时区:

2.9.2. 使用pdsh同步

上传pdsh并解压

# tar -xvf pdsh-2.26.tar

进入pdsh目录,执行如下命令

# ./configure -with-ssh --without-rsh

# make

# make install

在156主节点上执行下面命令,目的是将ip为 157、158的机器的时间和10.0.7.156这台机器同步,同步的时间是 13:51:19,

# pdsh -w ssh:10.0.7.[156,157,158] date -s 13:51:19

使用这种同步必须配置ssh免key

2.9.3. 使用NTP server同步

主节点需要设置的部分

3. Hadoop安装

3.1. 安装cm

借助cm的bin包安装校验cm。通常用bin包离线安装时会报错找不到数据源,其实只需安装bin中设定的rpm安装顺序安装即可。如果不放心最后可以用bin包在执行一遍验证。

下载地址:http://archive.cloudera.com/cm4/installer/latest/cloudera-manager-installer.bin

RPM包安装顺序:

# rpm -i jdk-6u31-linux-amd64.rpm

# rpm -i cloudera-manager-daemons-4.8.2-1.cm482.p0.101.el6.x86_64.rpm

# rpm -i cloudera-manager-server-4.8.2-1.cm482.p0.101.el6.x86_64.rpm

# rpm -i cloudera-manager-agent-4.8.2-1.cm482.p0.101.el6.x86_64.rpm

# rpm -i cloudera-manager-server-db-4.8.2-1.cm482.p0.101.el6.x86_64.rpm

# rpm -i enterprise-debuginfo-4.8.2-1.cm482.p0.101.el6.x86_64.rpm

# ./cloudera-manager-installer.bin --skip_repo_package=1

在浏览器中输入网址 http://10.1.195.60:7180/cmf/login

用户名/密码:admin/admin

3.2. 安装CDH

选择Free版

输入集群中所有的IP或者host, 每行一个,回车换行。

这步需要选的很多,比照下面的来选(做)就OK。

确保输入的路径和HTTP服务器配置的路径一致, 在浏览器中可以访问。

如:

http://10.1.195.60/manager/

http://10.1.195.60/impala/

http://10.1.195.60/cdh5/

用户使用ai,所有主机接受相同密码,密码统一为asiainfo

请确保一致, 后续有脚本需要使用.

按下图勾选服务, 点击"检查角色分配", 因各省机器数量不一致, 分配方案不一样. 各省详见单独设置文档.

查看"DataNode数据目录", 分配路径在"/opt"下, 安装时确保所有硬盘已挂载. Cm会自动选择最大的分区.

以上是"Hadoop环境如何实现离线安装"这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注行业资讯频道!

0