故障的机器修好后重启,狂拉主库binlog,导致网络问题,造成一定影响
发表于:2024-11-22 作者:千家信息网编辑
千家信息网最后更新 2024年11月22日,本文主要记录一次简单的、典型的故障,发生问题的原因很简单,这个问题发生也很简单,各位同学一定要注意,一不留神就会对主库造成影响。欢迎转载,请注明作者、出处。作者:张正 blog:http://spac
千家信息网最后更新 2024年11月22日故障的机器修好后重启,狂拉主库binlog,导致网络问题,造成一定影响本文主要记录一次简单的、典型的故障,发生问题的原因很简单,这个问题发生也很简单,各位同学一定要注意,一不留神就会对主库造成影响。
问题简述: 一周前,有一台mysql服务器发生硬件故障,停机了。我们给专门负责这块的同学提交了申请,他们负责去报修这台服务器。今天这台服务器修好后,他们将其开机启动。服务器上的4个mysql实例在开机后自动启动,开始拉主库的binlog。由于这台服务器停机时间比较久,日志丢的比较多,狂拉主库的binlog,导致主库网络出现问题。
现象:
首先,我们完全没有意识到是因为一台坏掉的服务器重启拉主库binlog导致的,因为我们压根不知道 这台服务器什么情况,只知道1周前,我们报修了1台服务器。具体什么情况,有没有修好,有没有开机,我们完全不知道。 在这样的情况下,忽然听到网络的同学说mysql有一台机器网络流量过大,导致业务感觉很慢,总共持续了17分钟。其实这样,是没有多大头绪的。
排查:
查看processlist、全日志、慢日志都没有发现有什么问题。
查看监控,发现那段时间的服务器的读IO骤然升高。 通过查看processlist的历史记录,发现有一段时间,主从复制的用户 状态是 waiting for net,通过其IP发现该服务器是1周前坏掉的一个slave服务器。
结论: 这台服务器上有4个实例,服务器启动后,mysql实例自动启动,开始向主库上拉binlog,每个主库每天的binlog量大概6G,4个实例1个星期大概160多G的binlog。
问题: 1、坏掉的服务器什么时候修好,什么时候开机,我们不可控,也不知道,也没有关注 2、这种案例其实是很简单、很典型的可能造成影响或故障的case,我们提前没有对这个现象有警觉,虽然知道这是个很容易出现的问题,但是在我们的case中,完全没有这方面的意识。因此导致该事件发生 3、对于网络流量这块,缺乏有效监控
解决方法: 1、所有服务器,取消开机自动启动mysql,服务器开机后,人为启动实例,停slave。(这样,如果服务器很多,可能过于麻烦,暂且先这样记录下来,总比造成影响强) 2、意识到该问题,将该问题纳入避免问题的常识库或工作手册中去。
欢迎转载,请注明作者、出处。
作者:张正 blog:http://space.itpub.net/26355921 QQ:176036317 如有疑问,欢迎联系。问题简述: 一周前,有一台mysql服务器发生硬件故障,停机了。我们给专门负责这块的同学提交了申请,他们负责去报修这台服务器。今天这台服务器修好后,他们将其开机启动。服务器上的4个mysql实例在开机后自动启动,开始拉主库的binlog。由于这台服务器停机时间比较久,日志丢的比较多,狂拉主库的binlog,导致主库网络出现问题。
现象:
首先,我们完全没有意识到是因为一台坏掉的服务器重启拉主库binlog导致的,因为我们压根不知道 这台服务器什么情况,只知道1周前,我们报修了1台服务器。具体什么情况,有没有修好,有没有开机,我们完全不知道。 在这样的情况下,忽然听到网络的同学说mysql有一台机器网络流量过大,导致业务感觉很慢,总共持续了17分钟。其实这样,是没有多大头绪的。
排查:
查看processlist、全日志、慢日志都没有发现有什么问题。
查看监控,发现那段时间的服务器的读IO骤然升高。 通过查看processlist的历史记录,发现有一段时间,主从复制的用户 状态是 waiting for net,通过其IP发现该服务器是1周前坏掉的一个slave服务器。
结论: 这台服务器上有4个实例,服务器启动后,mysql实例自动启动,开始向主库上拉binlog,每个主库每天的binlog量大概6G,4个实例1个星期大概160多G的binlog。
问题: 1、坏掉的服务器什么时候修好,什么时候开机,我们不可控,也不知道,也没有关注 2、这种案例其实是很简单、很典型的可能造成影响或故障的case,我们提前没有对这个现象有警觉,虽然知道这是个很容易出现的问题,但是在我们的case中,完全没有这方面的意识。因此导致该事件发生 3、对于网络流量这块,缺乏有效监控
解决方法: 1、所有服务器,取消开机自动启动mysql,服务器开机后,人为启动实例,停slave。(这样,如果服务器很多,可能过于麻烦,暂且先这样记录下来,总比造成影响强) 2、意识到该问题,将该问题纳入避免问题的常识库或工作手册中去。
服务器
服务
问题
实例
网络
修好
故障
影响
同学
情况
意识
日志
时间
作者
典型
时候
流量
现象
监控
机器
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
克拉玛依软件开发规定
数据库怎样连接
菏泽一中网络安全宣传周活动
专题数据库建设
C语言程序设计和数据库技术
四平网络安全服务
服务器处理器U和路解释
网络安全与执法要学枪械
方舟线上服务器可以加mod吗
东莞网络安全相关培训
网络安全恩怨
妇联开展网络安全宣传周活动
科技互联网企业文化墙
中小企业使用数据库
台州软件开发有限公司
网络安全与平面设计
网络安全法全文读后感
计算机学的什么软件开发
网络服务器存储数据库
购物车数据库表的设计
服务器在线管理
数据库系统中外文资料翻译
react 服务器端
801网络安全研究院是干什么的
数据库审计产品交流
北京数据库空投箱销售价格
网络安全科技大练兵
服务器吏机
袋鼠云数据库
杭州码耘网络技术有限公司