千家信息网

cdh5.14中cm server节点的/var/lib目录被误删后该怎么恢复

发表于:2024-09-22 作者:千家信息网编辑
千家信息网最后更新 2024年09月22日,今天就跟大家聊聊有关cdh5.14中cm server节点的/var/lib目录被误删后该怎么恢复,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获
千家信息网最后更新 2024年09月22日cdh5.14中cm server节点的/var/lib目录被误删后该怎么恢复

今天就跟大家聊聊有关cdh5.14中cm server节点的/var/lib目录被误删后该怎么恢复,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。

笔者遇到个突发问题,线上某cdh集群中 (cdh6.14),cm server所在节点的/var/lib目录被人误删了,误删操作人员已经尝试了从cm agent节点cdh3中,拷贝/var/lib 目录到cm server节点cdh2的/var/lib目录下, 然后重启了cm server,也确实重启成功了,但是重启后cm页面有大量告警,有主机层面的,也有服务层面的,如cdh2主机运行状况不良,cdh2上的host monitor 启动失败等,尝试了若干次重启cm集群,都没有解决问题;同时hdfs,hive,hbase,zookeeper等服务重启后不稳定,cm有时显示这些服务是正常的,有时又显示有问题,但查看hdfs web ui却发现hdfs服务是正常的。

笔者接到上报的问题后,首先仔细观察了cm中的告警信息和host页面,发现hosts页面有时显示有cdh2节点,有时又没有;同时原cdh2节点的角色如host monitor,hdfs namenode,有时会被显示是运行在cdh3节点上,至此问题清晰了,是cm检测hosts时发生了混乱,把cdh2节点和cdh3节点混淆了!

原理剖析:cm5.14版本的配置文件默认是在/etc/cloudera-scm-agent 和 /etc/cloudera-scm-server中,没有被误删;同时hive底层的mysql和cm底层的mysql(有可能是同一个数据库实例也有可能不是同一个数据库实例)也没有被误删,所以恢复cm server的/var/lib目录下的文件后,可以成功重启cm server, 同时cm server 重启时仍可以通过配置文件/etc/cloudera-scm-server/db.properties找到mysql元数据库并加载元数据库中的信息,所以仍可以启动cm集群。查看配置文件/etc/cloudera-scm-agent/config.ini 的 lib_dir配置项,该配置项配置的目录是用来存储cm agent节点的状态信息的(该配置项说明:# Persistent state directory. Directory to store CM agent state that persists across instances of the agent process and system reboots. Particularly, the agent's UUID is stored here.)在问题环境中,由于该配置项指定的是/var/lib/cloudera-scm-agent, cdh2节点该目录被误删除后是从另一个节点cdh3恢复过来的,恢复过来时后cdh2该目录下uuid文件存储的值就跟cdh3节点中该目录下uuid文件存储的值重复了。同时

cm在mysql元数据库的cm.hosts表中存储了cm集群的所有Hosts节点的一些元数据信息,包括HOST_IDENTIFIER字段存储的uuid。在问题环境中该cm.hosts表周中存储的chd1节点的uuid,与cdh2节点上/var/lib/cloudera-scm-agent/uuid文件中存储的uuid信息不一致(因为uuid文件是从cdh3节点拷贝过来的),所以导致cm检测cdh2节点和cdh3节点时发生了混淆,从而触发了各种警报。事实上,/var/lib/cloudera-scm-agent/cm_guid文件存储的是cm的id,跟cm.versions表中guid栏位的值一致,每个cm节点该文件的的内容都一样;/var/lib/cloudera-scm-agent/uuid存储的是该host全局唯一的id,跟cm.hosts表中HOST_IDENTIFIER栏位的值一致,每个节点的内容都不一样。查看uuid文件内容:more /var/lib/cloudera-scm-agent/uuid;查看mysql元数据中cm.hosts表存储的节点元数据信息语句:select HOST_ID,HOST_IDENTIFIER,NAME,IP_ADDRSS,RACK_ID,CLUSTER_ID from cm.hosts。

问题解决方法:修改cdh2节点的/var/lib/cloudera-scm-agent/uuid 文件,更改成cm.hosts表里对应节点cdh2的那条记录的HOST_IDENTIFIER栏位的值,然后重启 cm-server跟agent,问题最终解决了,解决后cdh2节点正常了,该节点上的scm服务角色如host monitor, 以及该节点上的大数据服务角色如namenode, resource manager, zk, hbase master等,也都正常了。

cm中相关目录使用总结:

cm相关的配置文件目录:

/etc/cloudera-scm-agent

/etc/cloudera-scm-server

cm相关的工作目录:

/var/lib/cloudera-scm-server

/var/lib/cloudera-scm-agent

/var/lib/cloudera-host-monitor

/var/lib/cloudera-service-monitor

cm相关的日志目录:

/var/log/cloudera-scm-server

/var/log/cloudera-scm-agent

/var/log/cloudera-scm-firehose

看完上述内容,你们对cdh5.14中cm server节点的/var/lib目录被误删后该怎么恢复有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注行业资讯频道,感谢大家的支持。

节点 目录 文件 存储 数据 问题 配置 信息 内容 服务 同时 数据库 集群 一致 角色 页面 成功 主机 实例 层面 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 银商贷紫山互联网科技有限公司 sql数据库属于哪种数据库 网络安全攻防实验系统厂商 七台河跑腿app软件开发 关闭数据库的方法没有 延庆区专业软件开发价目表 四川第一届网络安全技能大赛 四川壹鱼科技互联网有限公司 北京服务器散热片厂家 中国知识产权局数据库 数据库怎么取出元组 湖北省宝尊网络技术有限公司 软件开发有哪些注意事项 网络安全法 重要意义 正规网络安全工作方案供应商 微什么的app软件开发 python删除数据库字段 软件开发的新技术有哪些 主从数据库目的 服务器本地网络只有百兆 网络安全审计工控整机质量怎么样 北京大数据服务器机箱订做 河南服务器硬盘代理 网络安全管理风险评估 怎么解决多线程访问数据库 sql数据库越来越慢 联通软件开发技术怎么样 微什么的app软件开发 迷你世界ice服务器被炸事件 db2导入txt数据库
0