hadoop+Spark+hbase集群动态增加节点
发表于:2025-02-02 作者:千家信息网编辑
千家信息网最后更新 2025年02月02日,分布式系统的一个优势就是动态可伸缩性,如果增删节点需要重启那肯定是不行的。后来研究了一下,发现的确是不需要重启集群,直接在新增的节点上分别启动以下进程即可。以hadoop、spark和hbase为例:
千家信息网最后更新 2025年02月02日hadoop+Spark+hbase集群动态增加节点
分布式系统的一个优势就是动态可伸缩性,如果增删节点需要重启那肯定是不行的。后来研究了一下,发现的确是不需要重启集群,直接在新增的节点上分别启动以下进程即可。
以hadoop、spark和hbase为例:
一、hadoop增加datanode节点
因为1.x版本和2.x版本有比较大的差异,我这里是以2.7为例。
在namenode节点上,将hadoop-2.7复制到新节点上,并在新节点上删除data和logs目录中的文件。
1、增加hdfs数据节点datanode
在此节点上启动hdfs:
./sbin/hadoop-daemon.sh start datanode # (后台模式) 或./bin/hdfs datanode # (控制台模式)
2、下次自动启动,
修改集群里机器的所有$HADOOP_HOME/etc/hadoop/slaves配置文件,添加新节点。
3、刷新节点信息:
./bin/hdfs dfsadmin -refreshNodes
4、查看hdfs节点状态:即有多少个节点
./bin/hdfs dfsadmin -report
5、启动后可以均衡数据,使用命令
./sbin/start-balancer.sh
如果不balance,那么cluster会把新的数据都存放在新的node上,这样会降低工作效率:
查看hdfs节点状态:
hdfsdfsadmin -report1048576(=1Mb/s)104857600(=100Mb/s)hdfsdfsadmin -setBalancerBandwidth 104857600
#设置不同节点之间复制数据的带宽是受限的,默认是1MB/s
start-balancer.sh -threshold 1
#设置如果某个datanode的磁盘里使用率比平均水平高出1%,Blocks向其他低于平均水平的datanode中传送, 也就是每个节点使用率相差不超过1%。
或者:
start-balancer.shstop-balancer.sh
6、卸载节点
卸载节点一般不建议直接停掉,需要先将其排除在集群之外,
编辑配置文件:$HADOOP_HOME/etc/hadoop/hdfs-core.xml
dfs.hosts .../etc/hadoop/datanode-allow.list dfs.hosts.exclude .../etc/hadoop/datanode-deny.list
在datanode-deny.list中 加入要卸载的节点名称
刷新节点信息:
./bin/hdfs dfsdmin -refreshNodes # 会看到节点变成Dead和Decommissioned状态
最后再停止节点:
./sbin/hadoop-daemon.sh stop datanode
7、增加NodeManager任务节点
####启动:
./sbin/yarn-daemon.sh start nodemanager # (后台模式) 或./bin/yarn nodemanager # (控制台模式)
####停止:
./sbin/yarn-daemon.sh stop nodemanager
8、关闭namenode节点的安全模式
./bin/hadoop dfsadmin -safemode leave
二、spark新增worker节点
1、增加一个节点就是在该节点执行:
./sbin/start-slave.sh spark://:7077
就完成了新节点的注册和加入集群。
2、新增节点启动验证
执行jps命令,slave可以看到Worker进程
3、查看Spark UI
看到Workers中有新增节点
4、停止节点:
./sbin/stop-slave.sh
之后在master的管理端会显示这个节点已经"死掉"了。然而这条信息会一直显示到重启master为止。
5、希望下次自动启动这个新节点,
把这个节点名称加入到$SPARK_HOME/conf/slaves文件里。
三、hbase新增RegionServer
1、启动HRegionServer进程
hbase-daemon.shstart regionserver
2、启动HquorumPeer进程
hbase-daemon.shstart zookeeper
3、查看集群状态
hbase shell中输入status
4、负载均衡:
hbase shell中输入:balance_switch true
节点
集群
模式
数据
文件
状态
进程
信息
均衡
使用率
名称
后台
命令
就是
控制台
水平
版本
控制
输入
配置
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
oral数据库怎么连接
计算机网络安全论文网站免费
数据库vi
服务器管理在哪里设置
hpa数据库图片如何统计分析
软件开发中专技校如何收费
关系云数据库服务
银行数据库变迁
打csgo服务器卡怎么办
数据库name两个
腾讯站群服务器多ip怎么使用
云服务器免费一年下载
服务器配图
不履行网络安全保护义务责任
河北ios软件开发来电咨询
浪潮k-db数据库资料
浏阳市软件开发培训
南京木泉网络技术有限公司
查询数据库的条数
注册一个网络技术工作室
运动仿真软件开发
访问国外网站 代理服务器
网络技术一对多映射
浅谈计算机网络安全的论文答辩
软件开发的竞争力大吗
计算机网络技术一级考试
域名服务器 搭建
客户数据库需求分析怎么写
移动公司服务器
任务管理器找不到服务器