千家信息网

怎么在Linux系统上安装slurm来监控网络带宽和控制节点

发表于:2024-11-11 作者:千家信息网编辑
千家信息网最后更新 2024年11月11日,这篇文章主要讲解了"怎么在Linux系统上安装slurm来监控网络带宽和控制节点",文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习"怎么在Linux系统上安
千家信息网最后更新 2024年11月11日怎么在Linux系统上安装slurm来监控网络带宽和控制节点

这篇文章主要讲解了"怎么在Linux系统上安装slurm来监控网络带宽和控制节点",文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习"怎么在Linux系统上安装slurm来监控网络带宽和控制节点"吧!

SLURM 是一个类似 Sun Grid Engine (SGE) 的开源分布式资源管理软件,用于超级计算机和大型计算节点集群,可高度伸缩和容错。SUN 被卖给 Oracle 后,好用的 SGE 变成 Oracle Grid Engine 并且从 6.2u6 版本开始成为商业软件了(可以免费使用90天),所以我们不得不另寻其他的开源替代方案,SLURM 是上次在德班高性能会议的时候一位陌生人介绍的,听上去不错。
SLURM 通过一对冗余集群控制节点(冗余是可选的)来管理集群计算节点,是由一个名为 slurmctld 的管理守护程序实现的,slurmctld 提供了对计算资源的监视、分配和管理,并将进入的作业序列映射和分发到各个计算节点上。每个计算节点也有一个守护程序 slurmd,slurmd 管理在其上运行的节点,监视节点上运行的任务、接受来自控制节点的请求和工作、将工作映射到节点内部等等。图示如下:

监控带宽

代码如下:


$ apt-get install slurm


它会用字符来显示文本图形。
例如:

代码如下:


$ slurm -i
$ slurm -i eth2


选项
按 l 显示 lx/tx 指示灯.
按 c 切换到经典模式.
按 r 刷新屏幕.
按 q 退出.

控制节点
在控制节点和计算结点分别安装 slurm 包,这个包里面既含有控制节点需要的 slurmctld 也含有计算结点需要的 slurmd:

代码如下:


# apt-get install slurm-llnl


控制节点和计算结点之间需要通信,通信就需要认证,slurm 支持两种认证方式:Brent Chun’s 的 authd 和 LLNL 的 MUNGE,MUNGE 是专为高性能集群计算打造的,这里我们选用 MUNGE,生成 key 后启动 munge 认证服务:

代码如下:


# /usr/sbin/create-munge-key
Generating a pseudo-random key using /dev/urandom completed.
# /etc/init.d/munge start


使用 SLURM Version 2.3 Configuration Tool 在线配置工具生成配置文件,然后把配置文件拷贝控制节点以及各个计算结点的 /etc/slurm-llnl/slurm.conf(是的,控制节点和计算结点使用同一个配置文件)。
有了配置文件和启动了 munge 服务后就可以在控制节点启动 slurmctld 服务了:

代码如下:


# /etc/init.d/slurm-llnl start
* Starting slurm central management daemon slurmctld [ OK ]


把控制节点生成的 munge.key 拷贝到各个计算结点:

代码如下:


# scp /etc/munge/munge.key ubuntu@slurm01:/etc/munge/


登陆计算节点后启动 munge 服务(注意需要改变 munge.key 的 owner 和 group 为 munge,否则会启动失败)和 slurmd 服务:

代码如下:


# ssh ubuntu@slurm01
# chown munge:munge munge.key
# /etc/init.d/munge start
* Starting MUNGE munged [ OK ]
# slurmd


在控制节点上(slurm00)测试一下是否顺利连接到计算结点(slurm01),并且简单运行一个程序 /bin/hostname 看看效果吧:

代码如下:


# sinfo
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
debug* up infinite 1 idle slurm01
# srun -N1 /bin/hostname
slurm01

感谢各位的阅读,以上就是"怎么在Linux系统上安装slurm来监控网络带宽和控制节点"的内容了,经过本文的学习后,相信大家对怎么在Linux系统上安装slurm来监控网络带宽和控制节点这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是,小编将为大家推送更多相关知识点的文章,欢迎关注!

节点 控制 代码 结点 带宽 监控 服务 管理 配置 系统 网络 文件 集群 程序 学习 生成 认证 运行 内容 冗余 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 苏州学习软件开发需要多少钱 美国服务器 恒创科技 筑牢网络安全第一道防线 网络安全领域涉及网络信息的 p6服务器 小程序开发设置里服务器配置 软件开发之进销存系统 基于组件的软件开发架构 软件开发天津工资 南京java软件开发流程 中昊天昆网络技术 怎样用 做app软件开发 二年级网络安全手抄报字少画多 小型企业搭建服务器 海康威视监控服务器自动重启 图书馆网络技术应用 数据库的种类及使用 淘宝收件信息服务器保存多久 小学生网络安全讲演比赛图片 上海网络安全宣传进校 渭南市第六届国家网络安全宣传周 学软件开发的在哪好找工作 前瞻数据库怎么进行多数据处理 数据库中怎样设计主键 小程序显示服务器上的图片 蓝火数据库 数据库字段定义为整型还是字符型 领导关于网络安全讲话 软件开发补助规定条例 杭州视睿信息科技软件开发
0