故障的机器修好后重启,狂拉主库binlog,导致网络问题,造成一定影响
发表于:2025-01-20 作者:千家信息网编辑
千家信息网最后更新 2025年01月20日,本文主要记录一次简单的、典型的故障,发生问题的原因很简单,这个问题发生也很简单,各位同学一定要注意,一不留神就会对主库造成影响。欢迎转载,请注明作者、出处。作者:张正 blog:http://spac
千家信息网最后更新 2025年01月20日故障的机器修好后重启,狂拉主库binlog,导致网络问题,造成一定影响本文主要记录一次简单的、典型的故障,发生问题的原因很简单,这个问题发生也很简单,各位同学一定要注意,一不留神就会对主库造成影响。
问题简述: 一周前,有一台mysql服务器发生硬件故障,停机了。我们给专门负责这块的同学提交了申请,他们负责去报修这台服务器。今天这台服务器修好后,他们将其开机启动。服务器上的4个mysql实例在开机后自动启动,开始拉主库的binlog。由于这台服务器停机时间比较久,日志丢的比较多,狂拉主库的binlog,导致主库网络出现问题。
现象:
首先,我们完全没有意识到是因为一台坏掉的服务器重启拉主库binlog导致的,因为我们压根不知道 这台服务器什么情况,只知道1周前,我们报修了1台服务器。具体什么情况,有没有修好,有没有开机,我们完全不知道。 在这样的情况下,忽然听到网络的同学说mysql有一台机器网络流量过大,导致业务感觉很慢,总共持续了17分钟。其实这样,是没有多大头绪的。
排查:
查看processlist、全日志、慢日志都没有发现有什么问题。
查看监控,发现那段时间的服务器的读IO骤然升高。 通过查看processlist的历史记录,发现有一段时间,主从复制的用户 状态是 waiting for net,通过其IP发现该服务器是1周前坏掉的一个slave服务器。
结论: 这台服务器上有4个实例,服务器启动后,mysql实例自动启动,开始向主库上拉binlog,每个主库每天的binlog量大概6G,4个实例1个星期大概160多G的binlog。
问题: 1、坏掉的服务器什么时候修好,什么时候开机,我们不可控,也不知道,也没有关注 2、这种案例其实是很简单、很典型的可能造成影响或故障的case,我们提前没有对这个现象有警觉,虽然知道这是个很容易出现的问题,但是在我们的case中,完全没有这方面的意识。因此导致该事件发生 3、对于网络流量这块,缺乏有效监控
解决方法: 1、所有服务器,取消开机自动启动mysql,服务器开机后,人为启动实例,停slave。(这样,如果服务器很多,可能过于麻烦,暂且先这样记录下来,总比造成影响强) 2、意识到该问题,将该问题纳入避免问题的常识库或工作手册中去。
欢迎转载,请注明作者、出处。
作者:张正 blog:http://space.itpub.net/26355921 QQ:176036317 如有疑问,欢迎联系。问题简述: 一周前,有一台mysql服务器发生硬件故障,停机了。我们给专门负责这块的同学提交了申请,他们负责去报修这台服务器。今天这台服务器修好后,他们将其开机启动。服务器上的4个mysql实例在开机后自动启动,开始拉主库的binlog。由于这台服务器停机时间比较久,日志丢的比较多,狂拉主库的binlog,导致主库网络出现问题。
现象:
首先,我们完全没有意识到是因为一台坏掉的服务器重启拉主库binlog导致的,因为我们压根不知道 这台服务器什么情况,只知道1周前,我们报修了1台服务器。具体什么情况,有没有修好,有没有开机,我们完全不知道。 在这样的情况下,忽然听到网络的同学说mysql有一台机器网络流量过大,导致业务感觉很慢,总共持续了17分钟。其实这样,是没有多大头绪的。
排查:
查看processlist、全日志、慢日志都没有发现有什么问题。
查看监控,发现那段时间的服务器的读IO骤然升高。 通过查看processlist的历史记录,发现有一段时间,主从复制的用户 状态是 waiting for net,通过其IP发现该服务器是1周前坏掉的一个slave服务器。
结论: 这台服务器上有4个实例,服务器启动后,mysql实例自动启动,开始向主库上拉binlog,每个主库每天的binlog量大概6G,4个实例1个星期大概160多G的binlog。
问题: 1、坏掉的服务器什么时候修好,什么时候开机,我们不可控,也不知道,也没有关注 2、这种案例其实是很简单、很典型的可能造成影响或故障的case,我们提前没有对这个现象有警觉,虽然知道这是个很容易出现的问题,但是在我们的case中,完全没有这方面的意识。因此导致该事件发生 3、对于网络流量这块,缺乏有效监控
解决方法: 1、所有服务器,取消开机自动启动mysql,服务器开机后,人为启动实例,停slave。(这样,如果服务器很多,可能过于麻烦,暂且先这样记录下来,总比造成影响强) 2、意识到该问题,将该问题纳入避免问题的常识库或工作手册中去。
服务器
服务
问题
实例
网络
修好
故障
影响
同学
情况
意识
日志
时间
作者
典型
时候
流量
现象
监控
机器
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
软件开发什么技能
重大节日网络安全保障
数据库登录报错12514
天津华胜互联网科技有限公司
郑州互联网软件开发价钱
网络安全信息管控效果
腾讯云怎么查服务器的账号
石家庄通网络技术有限公司
可以白嫖服务器的国内厂商
GPS上传数据库设计
电脑wifi代理服务器错误
网络安全必须经过培训
网络安全演习背景图
软件开发量计算方法
nosql数据库
验证db2数据库安装成功
软件开发控制管理办法
数据库未开启或连接错误
网络安全科博会
增加服务器数量的目的
网络安全法哪个部门负责统筹
软件开发工具数据库
喋血复仇你与服务器连接超时
奉贤区软件开发设计规范
22年梦幻西游服务器排名
关于网络安全的工作是
山西电商软件开发定制
什么年代数据库技术得以发展
网络安全学校自查整改工作报告
服务器只显示一个鼠标箭头