千家信息网

kafka节点假死

发表于:2025-01-22 作者:千家信息网编辑
千家信息网最后更新 2025年01月22日,一、前言早上醒来打开微信,同事反馈kafka集群从昨天凌晨开始写入频繁失败,赶紧打开电脑查看了kafka集群的机器监控,日志信息,发现其中一个节点的集群负载从昨天凌晨突然掉下来了,和同事反馈的时间点大
千家信息网最后更新 2025年01月22日kafka节点假死

一、前言

早上醒来打开微信,同事反馈kafka集群从昨天凌晨开始写入频繁失败,赶紧打开电脑查看了kafka集群的机器监控,日志信息,发现其中一个节点的集群负载从昨天凌晨突然掉下来了,和同事反馈的时间点大概一致,于是乎就登录服务器开始干活。

二、排错

1、查看机器监控,看是否能大概定位是哪个节点有异常

2、根据机器监控大概定位到其中一个异常节点,登录服务器查看kafka日志,发现有报错日志,并且日志就停留在这个这个时间点:

[2017-06-01 16:59:59,851] ERROR Processor got uncaught exception. (kafka.network.Processor)java.lang.OutOfMemoryError: Direct buffer memory        at java.nio.Bits.reserveMemory(Bits.java:658)        at java.nio.DirectByteBuffer.(DirectByteBuffer.java:123)        at java.nio.ByteBuffer.allocateDirect(ByteBuffer.java:306)        at sun.nio.ch.Util.getTemporaryDirectBuffer(Util.java:174)        at sun.nio.ch.IOUtil.read(IOUtil.java:195)        at sun.nio.ch.SocketChannelImpl.read(SocketChannelImpl.java:379)        at org.apache.kafka.common.network.PlaintextTransportLayer.read(PlaintextTransportLayer.java:108)        at org.apache.kafka.common.network.NetworkReceive.readFromReadableChannel(NetworkReceive.java:97)        at org.apache.kafka.common.network.NetworkReceive.readFrom(NetworkReceive.java:71)        at org.apache.kafka.common.network.KafkaChannel.receive(KafkaChannel.java:160)        at org.apache.kafka.common.network.KafkaChannel.read(KafkaChannel.java:141)        at org.apache.kafka.common.network.Selector.poll(Selector.java:286)        at kafka.network.Processor.run(SocketServer.scala:413)

3、查看kafka进程和监听端口情况,发现都正常,尼玛假死了

ps -ef |grep kafka        ## 查看kafka的进程netstat -ntlp |grep 9092  ##9092kafka的监听端口

4、既然已经假死了,只能重启了

ps -ef |grep kafka |grep -v grep |awk '{print $2}'  | xargs kill -9  /usr/local/kafka/bin;nohup ./kafka-server-start.sh ../config/server.properties &

5、重启后在观察该节点的kafka日志,在一顿index重建之后,上面的报错信息在疯狂的刷,最后谷歌一番,解决了该问题

三、解决方案:

/usr/local/kafka/binkafka-run-class.sh

去掉

-XX:+DisableExplicitGC

添加

-XX:MaxDirectMemorySize=512m

在一次重启kafka,问题解决。


PS:参考链接:http://ju.outofmemory.cn/entry/75905

日志 节点 机器 集群 监控 信息 同事 时间 服务器 端口 进程 问题 定位 服务 登录 监听 频繁 一致 疯狂 前言 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 数据库一般用什么后台目录 视觉算法软件开发 网络技术进步带来的利 乡镇网络安全培训会简报 ftp服务器是用来什么服务的 企业被网络安全审查 太原市公安局网络安全保卫大队 软件开发和人工智能哪个好就业 新倩女幽魂19年所开的服务器 淘宝软件开发平台有哪些 网络安全问题的研究原始材料 深圳灵畅网络技术有限公司 携程 软件开发 金蝶用两个服务器 2020网络技术 郑州启能软件开发有限公司 手游hypixel服务器ip 大鹿湖北网络技术有限公司 吉林虚拟服务器管理软件云主机 学应用软件开发用什么编程 嘉定区大型网络技术欢迎咨询 dw服务器中ftp地址 exp导出表部分数据库 软件开发和人工智能哪个好就业 宝山区互联网络技术服务公司 服务器远程关了我怎么进入 银行软件开发师笔试真题 依据网络安全法规定网络产品 阿里云可以装服务器吗 网络安全管理员考试报名
0