千家信息网

hadoop单节点搭建

发表于:2024-09-22 作者:千家信息网编辑
千家信息网最后更新 2024年09月22日,企业大数据来源1.企业内部日志文件数据库**用户行为数据2.企业外部爬虫第三方购买(蚂蚁数据银行)--贵阳大数据=海量数据+复杂类型的数据hadoop是由谷歌的三篇论文《mapreduce》 --》m
千家信息网最后更新 2024年09月22日hadoop单节点搭建

企业大数据来源
1.企业内部
日志文件
数据库
**用户行为数据
2.企业外部
爬虫
第三方购买(蚂蚁数据银行)--贵阳
大数据=海量数据+复杂类型的数据
hadoop是由谷歌的三篇论文
《mapreduce》 --》mapreduce 分布式离线并行计算框


GFS ------》HDFS 分布式文件存储

系统
bigtable ----》 HBASE 分布式数据库

Hadoop四大核心模块
common
为其他模块提供基础设施
hdfs
分布式文件存储系统
mapreduce
分布式离线并行计算框架
分为两个阶段 map reduce
yarn
任务管理 资源调度
一个新的框架,2.0之后产生的一个全新的框架(将任务

调度资源管理与mappreduce分离)
HDFS
namenode(一台)
主从结构,
存储的是元数据,包括,文件类型属性,名称等

    datanode(多台)             可以存储不同的是数据块(block)每一个数据块默认大小(128M

)这个参数可以自定义

            apache                      hadoop。apache.org            google                            hadoop功能                    **数据存储                    **数据计算模型    文件系统,fat32 ntfs  ext4    软件版本  0.2    1.0    2.0   2.5     3.0    HDFS组成            一台namenode 服务器                    存储元数据            和多台datanode 服务器                     存储真实数据()    主从结构                    一台namenode                    多台datanode                    一个文件上传  呗分割为 多个数据块  每个数据块 默认

大小
128M
hdfs 功能:
namenode 主节点,存放文件元数据,文件名 文

件目录 结构,文件属性
datanode 存储在本地的文件数据,数据块校验
yarn
resourcemanage
任务调度资源管理
nodemanager
节点管理服务
任务管理 资源调度
1.客户端 向 resourcemanager提交任务
2 resourcemanager向namenode 分配一个 applicationManager,

并找到一个容器生成一个 MR appmatr
3该应用的管理者 向resourcemanager申请资源
4资源申请完毕,找到nodemanager将容器中的 MRappmstr

启动起来
5map 和reduce 任务启动
6mapreduce 程序启动 都要向 MRappmstr提交信息
7程序结束,应用的管理者都要向 resourcemanager提交信息

mapreduce
计算分为两个阶段
map 文件上传被分割程 多个任务,
shuffer
reduce 将map的结果输出
系统安装
1,创建虚拟机选择磁盘 不能小于50G
2.安装类型 桌面
3.分区默认
为分布式 准备环境
1, 设置网卡 ip为静态的
vi /etc/sysconfig/network-scripts/ifcfg-eth0

                    DEVICE=eth0

TYPE=Ethernet
UUID=b17e5d93-cd31-4166-827f-18cf14586777
ONBOOT=yes #把网卡设置成开机启动
NM_CONTROLLED=yes
BOOTPROTO=static DHCP改成static
HWADDR=00:0C:29:88:2A:28
IPADDR=192.168.30.100
PREFIX=24
GATEWAY=192.168.30.2
DNS1=192.168.30.2
DNS2=202.96.209.5
DEFROUTE=yes
IPV4_FAILURE_FATAL=yes
IPV6INIT=no
NAME="System eth0"

  1. 设置DNS
    vi /etc/sysconfig/network-scripts/ifcfg-eth0

            DNS1=192.168.30.2DNS2=202.96.209.5   把网络服务重启  service network restart  3.设置主机名  vi /etc/sysconfig/network  hadoop-senior.beifeng.com 4.关闭防火墙

    禁用linux中的安全子系统,是在selinux文件中
    路径/etc/sysconfig/selinux
    1.首先将selinux=disabled
    [root@java15 ~]# vi /etc/sysconfig/selinux
    selinux=disabled
    2.关闭防火墙
    [root@java15 ~]# service iptables stop
    3.设置防火墙开机不启动
    [root@java15 ~]# chkconfig iptables off
    4.查看防火墙是否完全关闭
    [root@java15 ~]# service iptables status
    iptables: Firewall is not running.
    5.添加主机名映射
    [root@hadoop-senior ~]# vi /etc/hosts
    192.168.30.100 hadoop-senior.xiaoping.com

windows C:\Windows\System32\drivers\etc
6.设置普通用户 方便后期使用,后期的所有操作都使用普通用户
useradd xiaoping

echo 123456 | passwd --stdin xiaoping

安装jdk
su -root 切换root用户创建

mkdir /opt/modules/ 用于软件安装的目录

    # mkdir /opt/softwares/  用于软件下载目录    # chown beifeng:xiaoping /opt/modules/    # chown beifeng:xiaoping /opt/softwares/    hadoop-2.5.0.tar.gz     #su xiaoping  切换xiaoping用户下  解压jdk    $ tar -zxvf jdk-7u67-linux-x64.tar.gz -C /opt/modules/    配置 jdk环境变量    /opt/modules/jdk1.7.0_67    # vi /etc/profile   用root用户    ##JAVA_HOMEJAVA_HOME=/opt/modules/jdk1.7.0_67export PATH=$PATH:$JAVA_HOME/bin    卸载系统自带的jdk、    # rpm -qa |grep -i java    # rpm -e --nodeps tzdata-java-2012j-1.el6.noarch     # rpm -e --nodeps java-1.6.0-openjdk-1.6.0.0-

1.50.1.11.5.el6_3.x86_64

rpm -e --nodeps java-1.7.0-openjdk-1.7.0.9-2.3.4.1.el6_3.x86_64

    # vi ~/.bashrc    普通用户环境配置可以选择不配  ##JAVA_HOMEJAVA_HOME=/opt/modules/jdk1.7.0_67export PATH=$PATH:$JAVA_HOME/bin $ source /etc/profile   更新文件       # source  ~/.bashrc    安装hadoop    #tar -zxvf hadoop-2.5.0-cdh6.3.6.tar\(1\).gz  -C /opt/modules/

hadoop安装包下的配置文件所在目录
/opt/modules/hadoop-2.5.0-cdh6.3.6/etc/hadoop

    配置hadoop环境变量

hadoop-env.sh mapred-env.sh yarn-env.sh 三个全部修改javahome
export JAVA_HOME=/opt/modules/jdk1.7.0_67

修改 core-site.xml



fs.defaultFS
hdfs://hadoop-senior.beifeng.com:8020



hadoop.tmp.dir
/opt/modules/hadoop-2.5.0-cdh6.3.6/data

    修改slaves文件  --》指定那台服务器是datanode    hadoop-senior.beifeng.com   比如三台主机 每行一个主机名or ip    hadoop-senior.beifeng1.com    hadoop-senior.beifeng2.com

hdfs-site.xml
副本数不能大于主机个数(hdfs当节点不切换文件,集

群会)


dfs.replication
1


格式化文件系统
$ bin/hdfs namenode -format
启动namenode 和datanode 服务
$ sbin/hadoop-daemon.sh start namenode 启动namenode
$ sbin/hadoop-daemon.sh start datanode 启动datanode
查看服务进程
[beifeng@hadoop-senior hadoop-2.5.0]$ jps
10031 Jps
9954 DataNode
9845 NameNode
$ bin/hdfs dfs -mkdir /input 创建文件夹在hdfs上
$ bin/hdfs dfs -put /opt/modules/yy.txt /input 上传文件
$ bin/hdfs dfs -cat /input/yy.txt 查看文件

配置 yarn
资源管理,任务调度
yarn-env.sh mapred-env.sh
环境变量:
export JAVA_HOME=/opt/modules/jdk1.7.0_67

    **resourcemanager    **nodemanager

yarn-site.xml



yarn.nodemanager.aux-services
mapreduce_shuffle



yarn.resourcemanager.hostname
hadoop-senior.beifeng.com

    mapred-site.xml



mapreduce.framework.name
yarn

启动yarn
$ sbin/yarn-daemon.sh start resourcemanager
$ sbin/yarn-daemon.sh start nodemanager
浏览器
http://hadoop-senior.beifeng.com:8088/cluster
利用官方自带jar包进行文件的单词统计
$ bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-exam
ples-2.5.0.jar wordcount /input/ /output

$ bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0-

cdh6.3.6.jar wordcount /input/ /output

查看统计结果
$ bin/hdfs dfs -cat /output/par*

配置日志服务器
yarn-site.xml


yarn.log-aggregation-enable
true



yarn.log-aggregation.retain-seconds
86400

mapred-site.xml


mapreduce.jobhistory.address
hadoop-senior.beifeng.com:10020



mapreduce.jobhistory.webapp.address
hadoop-senior.beifeng.com:19888

重启yarn
$ sbin/yarn-daemon.sh stop resourcemanager
$ sbin/yarn-daemon.sh stop nodemanager
$ sbin/yarn-daemon.sh start resourcemanager
$ sbin/yarn-daemon.sh start nodemanager
启动historyserver服务
$ sbin/mr-jobhistory-daemon.sh start historyserver
$ bin/yarn jar share/hadoop/mapreduce/hadoop-ma
preduce-examples-2.5.0.jar wordcount /input/ /output1
源文件分隔符\t
input表示输入路径
output表示输出路径 必须是不存在的
都是HDFS里面的路径
解决警告:
替换native包
将native压缩包解压至/opt/modules/hadoop-2.5.0/lib 替换原来的native

问题:
用户操作的问题
不要用root用户启动服务
切换普通用户的时候记得去虚拟机查看是否已经切换普通用户
/opt目录下 的两个文件夹 一定是属于普通用户的
编辑配置文件的时候 notepad 用普通用户去登陆操作,
虚拟机环境问题 防火墙 网关 ip 主机名本地hosts文件添加映

查看日志信息 tail -n50查看后五十行日志信息
/opt/modules/hadoop-2.5.0/logs
$ tail -n50 hadoop-beifeng-namenode-hadoop-senior.beifeng.com.log

文件 数据 用户 服务 任务 存储 管理 配置 普通 资源 主机 分布式 环境 系统 目录 防火墙 切换 调度 防火 信息 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 数据库服务器怎么打开 网络安全班会学习的心得 上海方便网络技术客户至上 数据建模和软件开发哪个难 数据库设置序号自动生成 新浪潮服务器默认密码多少 廊坊市委网络安全和信息化 网吧战地五无法连接服务器 数据库安全策略和机制 戴尔媒体服务器 国家保障网络安全评估报告 台服魔兽世界服务器 html5 软件开发工具 注重互联网金融网络安全保障 企业网络安全机制推行 连接远程服务器time out 北大的图书馆数据库能下载书吗 方舟生存进化服务器如何自己建 ibm服务器硬盘状态 hp服务器 固态硬盘 网络安全教材奖 清科数据库技术流视频 数据库核心基础的对象 深圳哪里可以买到华为服务器 蒙古国首都数据库 软件开发项目有哪些问题 数据库relvar什么意思 未来科技城互联网房产公司 软件开发瀑布型模型定义阶段 通辽市公安局网络安全支队位置
0