千家信息网

记一次服务器宕机处理过程

发表于:2025-01-23 作者:千家信息网编辑
千家信息网最后更新 2025年01月23日,今天整理之前的运维资料,发现了自己整理的一次刀片服务器(运行的vmware虚拟化)事故处理流程,所以记录下,备忘。一、事件处理过程14:10 接到机房运维工程师通知,Opmanager监控系统上出现了
千家信息网最后更新 2025年01月23日记一次服务器宕机处理过程

今天整理之前的运维资料,发现了自己整理的一次刀片服务器(运行的vmware虚拟化)事故处理流程,所以记录下,备忘。

一、事件处理过程

14:10 接到机房运维工程师通知,Opmanager监控系统上出现了多台服务器宕机现象,并且均为虚拟机。

14:12 通知机房运维工程师检查HP刀片服务器是否有告警,远程登录vcenter进行检查。远程查看发现ESX0410.203.11.64)出现告警,告警信息如下图所示:

14:15 通知工程师ESX04出现告警,然后确认该刀片服务器是否存活,并进入机房确认设备上是否有硬件上的告警。

14:16 检查逻辑上的网络接口是否存在异常


如下图所示,发现有两块网卡处于离线状态


14:18 检查其它刀片,发现ESXI02对应的网卡,发现为正常的

14:20 登录HP刀片管理控制台查看,未发现服务器告警信息。

14:19 参照其它EXSI,尝试更改vmnic6、vmnic7两块网卡模式,该操作无法生效

更改网卡模式无法生效

14:27 在ESX04进行手动迁移虚拟机到其他主机上,迁移失败。

14:58 ESX04主机上的虚拟机全部关机

15:20 重启ESXI主机,HA 自动将开着的虚拟机迁移到其他EXSI主机上启动

15:30 ESX04主机启动成功后,vsphereHA尝试自动将虚拟机迁移回ESX04主机失败,

15:50 手动迁移部分虚拟机回ESX04主机,观察运行状态。

二、日志分析

1、远程登录到ESXI的命令行,查看vmkernel的日志:

说明:由于esxi4采用的是utc时间,日志中显示的较时间时间会慢8小时

/var/log # cat /var/log/vmkernel.log | grep '2014-12-18'2014-12-18T03:27:49.106Zcpu46:6396479)WARNING: ScsiDeviceIO: 1211: Devicenaa.60014380064900f30000800000e40000 performance hasdeteriorated. I/O latency increased from average value of 3303 microseconds to68755 microseconds.2014-12-18T03:31:54.595Zcpu8:16392)ScsiDeviceIO: 1191: Device naa.60014380064900f30000800000e40000performance has improved. I/O latency reduced from 68755 microseconds to 13691microseconds.2014-12-18T03:32:32.643Zcpu12:17017)MigrateNet: vm 17017: 2061: Accepted connection from <10.203.11.100>2014-12-18T03:32:32.643Zcpu12:17017)MigrateNet: vm 17017: 2131: dataSocket 0x4100253292f0 receivebuffer size is 5635602014-12-18T03:32:32.644Z cpu12:17017)WARNING:Migrate: 262: Invalid message type for new connection: 542393671.  Expecting message

如上面的日志显示:13:27,主机的性能开始下降,I/O延迟变的较大

2、查看10.203.11.100是否有相关告警:

如上图所示,提示esx04主机的网卡状态出现错误

3、收集的其它日志如下,暂未发现异常

整个处理过程到此基本完成,所有的刀片服务器中,也就这台偶尔抽风,也没有明显的特征


主机 服务器 服务 刀片 日志 网卡 检查 处理 工程 工程师 时间 机房 状态 登录 过程 信息 手动 模式 尝试 运行 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 玩游戏服务器老死机断开连接 授时服务器怎么设置 酷柒互联网科技 java中的锁和数据库锁的区别 套接字服务器地址 美国互联网科技行业发展史 云服务器可以开数据库吗 人民日报网络安全周 2021 河南网站服务器管理权限服务器 南京通用软件开发代理价钱 贵州pdu服务器电源公司有哪些 我的世界存档怎么放到服务器 网络安全海报手绘大学 知乎属于数据库吗 网络安全刑事犯罪案例 互联网领域前沿科技 数据库中怎么去除重复 vc多线程数据库访问 荷兰木兰花软件开发有限公司 华珍锋网络技术工作室 软件开发软件工程师培训 网络技术学哪方面好 渝北区一站式网络技术包括什么 江苏安防时钟同步服务器 河南网站服务器管理权限服务器 青海租用gpu服务器报价表 软件开发升级系统运维 上海天一网络技术有限公司 网络安全和舆情管理自查 地牢猎手5服务器连接不上
0