HP-UX上一次Oracle软件安装目录磁盘空间满导致的故障
发表于:2024-09-23 作者:千家信息网编辑
千家信息网最后更新 2024年09月23日,接到电话,告知公司负责的某维保客户数据库出现了故障客户反馈,应用端出现了磁盘读写错误:同时,登录数据库时也出现了错误:同时,用户反馈说部分业务已经中断登录操作系统, 通过查询gv$instance视图
千家信息网最后更新 2024年09月23日HP-UX上一次Oracle软件安装目录磁盘空间满导致的故障接到电话,告知公司负责的某维保客户数据库出现了故障
客户反馈,应用端出现了磁盘读写错误:
同时,登录数据库时也出现了错误:
同时,用户反馈说部分业务已经中断
登录操作系统, 通过查询gv$instance视图,得知是一个双节点的11gR2的集群
检查节点1的数据库告警日志,ASM告警日志,CRSD日志,未发现近期可疑错误信息
登录节点2, 发现数据库服务的/oracle目录的空间占用已达到100%。检查磁盘文件空间占用发现, 监听的产生的listener.log, XML文件占用了大量空间,遂清理之
从报错日志来看,磁盘写入出现了问题,怀疑数据文件有物理坏块。但是用dbv userid/password file='+DATA/数据库名/datafile/system.345' 并未检查出有坏块
清理出oracle软件安装目录之后,用户反映业务已经恢复正常。 但是对于这个错误还是有点不解,为什么磁盘空间的问题会导致数据文件写入的错误。
继续检查:
ASM的告警日志中出现了如下的信息:
Tue Jun 12 17:00:27 2018
Non critical error DIA-48181 caught while writing to trace file "/oracle/app/diag/asm/+asm/+ASM2/trace/+ASM2_ora_5142.trc"
Error message: HPUX-ia64 Error: 28: No space left on device
Additional information: 1
Writing to the above trace file is disabled for now on...
WARNING: ASM communication error: op 0 state 0x0 (15055)
ERROR: direct connection failure with ASM
NOTE: Deferred communication with ASM instance
这里已经出现了ASM连接中断的信息。
难怪会出现磁盘读写错误
清理掉日志文件之后,告警日志里也没有新的信息写入
检查集群组件状态:
CRS服务已经出现了问题
总结:
应可以推断出,/oracle目录磁盘空间占满,导致了数据库实例通过ASM读写数据文件时,登录ASM出现了错误。 此时就出现了前文中所示的写入system表空间的错误
这里还有一个比较关键的提示:
ORA-29701: unable to connect to Cluster Sychironization Service
这里已经是集群层面的进程出现问题了。与数据文件本身并无联系(清理空间后业务也恢复了正常)
同时给了客户建议:
客户反馈,应用端出现了磁盘读写错误:
同时,登录数据库时也出现了错误:
同时,用户反馈说部分业务已经中断
登录操作系统, 通过查询gv$instance视图,得知是一个双节点的11gR2的集群
检查节点1的数据库告警日志,ASM告警日志,CRSD日志,未发现近期可疑错误信息
登录节点2, 发现数据库服务的/oracle目录的空间占用已达到100%。检查磁盘文件空间占用发现, 监听的产生的listener.log, XML文件占用了大量空间,遂清理之
从报错日志来看,磁盘写入出现了问题,怀疑数据文件有物理坏块。但是用dbv userid/password file='+DATA/数据库名/datafile/system.345' 并未检查出有坏块
清理出oracle软件安装目录之后,用户反映业务已经恢复正常。 但是对于这个错误还是有点不解,为什么磁盘空间的问题会导致数据文件写入的错误。
继续检查:
ASM的告警日志中出现了如下的信息:
Tue Jun 12 17:00:27 2018
Non critical error DIA-48181 caught while writing to trace file "/oracle/app/diag/asm/+asm/+ASM2/trace/+ASM2_ora_5142.trc"
Error message: HPUX-ia64 Error: 28: No space left on device
Additional information: 1
Writing to the above trace file is disabled for now on...
Non critical error ORA-48113 caught while writing to trace file "/oracle/app/diag/asm/+asm/+ASM2/trace/+ASM2_ora_14098.trc"
Error message:Writing to the above trace file is disabled for now on...
WARNING: ASM communication error: op 0 state 0x0 (15055)
ERROR: direct connection failure with ASM
NOTE: Deferred communication with ASM instance
这里已经出现了ASM连接中断的信息。
难怪会出现磁盘读写错误
清理掉日志文件之后,告警日志里也没有新的信息写入
检查集群组件状态:
$ /oracle/grid/bin/crsctl check crs
CRS-4638: Oracle High Availability Services is online
CRS-4535: Cannot communicate with Cluster Ready Services
CRS-4529: Cluster Synchronization Services is online
CRS-4533: Event Manager is online
CRS服务已经出现了问题
总结:
应可以推断出,/oracle目录磁盘空间占满,导致了数据库实例通过ASM读写数据文件时,登录ASM出现了错误。 此时就出现了前文中所示的写入system表空间的错误
这里还有一个比较关键的提示:
ORA-29701: unable to connect to Cluster Sychironization Service
这里已经是集群层面的进程出现问题了。与数据文件本身并无联系(清理空间后业务也恢复了正常)
同时给了客户建议:
改善建议:
1. 建议部署crontab脚本,定期清理/oracle目录下的监听日志以及日志相关的xml文件
2. CRS集群本身已经出现了问题,且经过很久之后也未恢复,建议重启CRS集群服务
通过
/oracle/grid/bin/crsctl stop crs
/oracle/grid/bin/crsctl start crs
数据
日志
文件
错误
空间
磁盘
数据库
问题
集群
检查
目录
信息
建议
登录
业务
同时
客户
节点
服务
用户
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
数据库与过程库的区别
管理学网络技术
数据库 素材
2003 时间服务器
网络安全志愿服务做法
宝塔云服务器搭建网站
南宁精益管理软件开发
阿拉德之怒怎么关闭服务器
防范网络安全铃声
第三小学网络安全教育活动
省市两级联动 带数据库
软件开发的信息技术外包
access数据库太大
锡山软件开发者
云端服务器有实体吗
明日之后服务器是跨版本吗
服务器网站安全策略
企业运营管理服务器要求
网络安全法明确禁止
河北省网信办网络安全标准手册
收到软件开发费如何记账
互联网科技专业介绍ppt
企业邮箱的服务器
互联互通服务器日常维护
山西餐饮软件开发常用指南
家庭的网络安全教育课件
铁路法律和网络安全知识答题
全球网络安全检测软件
查看当前数据库中表的语句是什么
app与服务器安全连接