hadoop+Spark+hbase集群动态增加节点
发表于:2024-12-12 作者:千家信息网编辑
千家信息网最后更新 2024年12月12日,分布式系统的一个优势就是动态可伸缩性,如果增删节点需要重启那肯定是不行的。后来研究了一下,发现的确是不需要重启集群,直接在新增的节点上分别启动以下进程即可。以hadoop、spark和hbase为例:
千家信息网最后更新 2024年12月12日hadoop+Spark+hbase集群动态增加节点
分布式系统的一个优势就是动态可伸缩性,如果增删节点需要重启那肯定是不行的。后来研究了一下,发现的确是不需要重启集群,直接在新增的节点上分别启动以下进程即可。
以hadoop、spark和hbase为例:
一、hadoop增加datanode节点
因为1.x版本和2.x版本有比较大的差异,我这里是以2.7为例。
在namenode节点上,将hadoop-2.7复制到新节点上,并在新节点上删除data和logs目录中的文件。
1、增加hdfs数据节点datanode
在此节点上启动hdfs:
./sbin/hadoop-daemon.sh start datanode # (后台模式) 或./bin/hdfs datanode # (控制台模式)
2、下次自动启动,
修改集群里机器的所有$HADOOP_HOME/etc/hadoop/slaves配置文件,添加新节点。
3、刷新节点信息:
./bin/hdfs dfsadmin -refreshNodes
4、查看hdfs节点状态:即有多少个节点
./bin/hdfs dfsadmin -report
5、启动后可以均衡数据,使用命令
./sbin/start-balancer.sh
如果不balance,那么cluster会把新的数据都存放在新的node上,这样会降低工作效率:
查看hdfs节点状态:
hdfsdfsadmin -report1048576(=1Mb/s)104857600(=100Mb/s)hdfsdfsadmin -setBalancerBandwidth 104857600
#设置不同节点之间复制数据的带宽是受限的,默认是1MB/s
start-balancer.sh -threshold 1
#设置如果某个datanode的磁盘里使用率比平均水平高出1%,Blocks向其他低于平均水平的datanode中传送, 也就是每个节点使用率相差不超过1%。
或者:
start-balancer.shstop-balancer.sh
6、卸载节点
卸载节点一般不建议直接停掉,需要先将其排除在集群之外,
编辑配置文件:$HADOOP_HOME/etc/hadoop/hdfs-core.xml
dfs.hosts .../etc/hadoop/datanode-allow.list dfs.hosts.exclude .../etc/hadoop/datanode-deny.list
在datanode-deny.list中 加入要卸载的节点名称
刷新节点信息:
./bin/hdfs dfsdmin -refreshNodes # 会看到节点变成Dead和Decommissioned状态
最后再停止节点:
./sbin/hadoop-daemon.sh stop datanode
7、增加NodeManager任务节点
####启动:
./sbin/yarn-daemon.sh start nodemanager # (后台模式) 或./bin/yarn nodemanager # (控制台模式)
####停止:
./sbin/yarn-daemon.sh stop nodemanager
8、关闭namenode节点的安全模式
./bin/hadoop dfsadmin -safemode leave
二、spark新增worker节点
1、增加一个节点就是在该节点执行:
./sbin/start-slave.sh spark://:7077
就完成了新节点的注册和加入集群。
2、新增节点启动验证
执行jps命令,slave可以看到Worker进程
3、查看Spark UI
看到Workers中有新增节点
4、停止节点:
./sbin/stop-slave.sh
之后在master的管理端会显示这个节点已经"死掉"了。然而这条信息会一直显示到重启master为止。
5、希望下次自动启动这个新节点,
把这个节点名称加入到$SPARK_HOME/conf/slaves文件里。
三、hbase新增RegionServer
1、启动HRegionServer进程
hbase-daemon.shstart regionserver
2、启动HquorumPeer进程
hbase-daemon.shstart zookeeper
3、查看集群状态
hbase shell中输入status
4、负载均衡:
hbase shell中输入:balance_switch true
节点
集群
模式
数据
文件
状态
进程
信息
均衡
使用率
名称
后台
命令
就是
控制台
水平
版本
控制
输入
配置
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
星露谷显示服务器关闭
mysql 实时刷新数据库
配置access数据库
延边创业软件开发怎么样
上海智能软件开发注意事项
计算机网络技术学习课程
软件开发流程认证
延庆区品质软件开发怎么样
软件开发具体步骤
陆伟网络技术
酒店网络安全管理报告
数据库审计市场占有率
软件开发分为哪两种模式
速达xp服务器连接失败
中国软件开发水平
我国网络安全性差
添加数据库数据库文件位置
学网络安全的孩子是吃青春饭的吗
南湖区网络安全
流程图 数据库
扶沟百事通网络技术
不属于服务器优点
宝塔面板反向代理数据库端口
贵州正规网络技术分类优势
阿里云服务器安全事件如何处理
网络安全的法规和政策
云顶之弈新加坡服务器装备合成
绍兴现在那里还有服务器
软件开发人员叫什么
ipv6 地址国家对应数据库