千家信息网

Freeshell查明NFS经常卡死问题的示例分析

发表于:2024-11-11 作者:千家信息网编辑
千家信息网最后更新 2024年11月11日,这篇文章将为大家详细讲解有关Freeshell查明NFS经常卡死问题的示例分析,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。freeshell 出现持续两个小时的
千家信息网最后更新 2024年11月11日Freeshell查明NFS经常卡死问题的示例分析

这篇文章将为大家详细讲解有关Freeshell查明NFS经常卡死问题的示例分析,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。

freeshell 出现持续两个小时的 NFS 卡死问题。事实上,2014 年 8 月启用外部磁盘以来,就经常出现持续几十秒甚至几分钟的 NFS 卡死,卡死期间外部磁盘上的 freeshell 无法执行任何操作,有的 freeshell 还会因为磁盘操作超时而关机。之前一直以为是 NFS bug 导致了死锁,没有定位到故障原因,也没能重现。

2 月 3 日,通过 tcpdump 抓包和 strace nfsiod 进程的方法,查明 NFS server not responding 的问题是由于外部硬盘(一块希捷的 2T 绿盘)过于繁忙。

在 NFS 卡死的时段,外部磁盘读的平均延迟可达 600ms,写的平均延迟是 1400ms。当初设置 NFS 挂载参数的时候,我没有考虑到磁盘繁忙的问题,只是想到了网络延迟不应当超过 1 秒,于是就设置了超时 timeo=10,表示 1 秒超时。一个 NFS 请求可能需要分解为多个磁盘读请求,这些请求的时间之和很可能超过 1 秒,也就是大部分读写请求还没来得及发给磁盘就超时了,形成了 NFS 服务器失去响应的假象。

下面是 早先的挂载参数:
vers=3,rw,rsize=32768,wsize=32768,tcp,timeo=10,retrans=5,soft,intr,sec=sys,lookupcache=all,ac,nocto

现将超时修改成 30 秒(timeo=300)。
vers=3,rw,rsize=32768,wsize=32768,tcp,timeo=300,retrans=5,soft,intr,sec=sys,lookupcache=all,ac,nocto

2 月 3 日已经修改 fstab,但由于挂载着的 NFS 不能修改挂载参数(见 man nfs),需要关闭所有外部磁盘上的虚拟机才能重新挂载 NFS。2 月 4 日刚好 1 号节点挂了,于是把所有其他节点也重启了一遍,NFS 参数就更新了。

关于"Freeshell查明NFS经常卡死问题的示例分析"这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,使各位可以学到更多知识,如果觉得文章不错,请把它分享出去让更多的人看到。

磁盘 问题 参数 篇文章 延迟 示例 分析 繁忙 更多 节点 不错 实用 两个 之和 也就是 事实 事实上 假象 内容 原因 数据库的安全要保护哪些东西 数据库安全各自的含义是什么 生产安全数据库录入 数据库的安全性及管理 数据库安全策略包含哪些 海淀数据库安全审计系统 建立农村房屋安全信息数据库 易用的数据库客户端支持安全管理 连接数据库失败ssl安全错误 数据库的锁怎样保障安全 以太无源光网络技术最大传输距离 无锡防爆刀片服务器销售 热血江湖服务器满员怎么解决 福建it软件开发中心 机架服务器家用 邮件发到对方服务器啥意思 上海软件开发驻场哪里好 农业资源数字化及数据库建设项目 山东蓝狐网络技术有... 宜通世纪数据库 es数据库连接报504错误 高性能服务器大全 一站式服务 镇江苹果服务器 中文全文数据库试题 数据库软件验收标准 针对服务器安全有哪些防护策略 安徽图腾服务器机柜 新手软件开发用什么工具包 互联网平台的名字科技风 大型服务器安在家里违法吗 打印机无线服务器反应慢 小学网络安全防范常识 通信网络技术专业知识 湖北地信公司软件开发工程师 工业网络技术考试论文 数据库的筛选方式 数据库copy的用法 华为服务器管理口ip忘了 网络安全方针政策知识题 网络安全法对跨国软件的要求
0