HP-UX上一次Oracle软件安装目录磁盘空间满导致的故障
发表于:2024-09-23 作者:千家信息网编辑
千家信息网最后更新 2024年09月23日,接到电话,告知公司负责的某维保客户数据库出现了故障客户反馈,应用端出现了磁盘读写错误:同时,登录数据库时也出现了错误:同时,用户反馈说部分业务已经中断登录操作系统, 通过查询gv$instance视图
千家信息网最后更新 2024年09月23日HP-UX上一次Oracle软件安装目录磁盘空间满导致的故障接到电话,告知公司负责的某维保客户数据库出现了故障
客户反馈,应用端出现了磁盘读写错误:
同时,登录数据库时也出现了错误:
同时,用户反馈说部分业务已经中断
登录操作系统, 通过查询gv$instance视图,得知是一个双节点的11gR2的集群
检查节点1的数据库告警日志,ASM告警日志,CRSD日志,未发现近期可疑错误信息
登录节点2, 发现数据库服务的/oracle目录的空间占用已达到100%。检查磁盘文件空间占用发现, 监听的产生的listener.log, XML文件占用了大量空间,遂清理之
从报错日志来看,磁盘写入出现了问题,怀疑数据文件有物理坏块。但是用dbv userid/password file='+DATA/数据库名/datafile/system.345' 并未检查出有坏块
清理出oracle软件安装目录之后,用户反映业务已经恢复正常。 但是对于这个错误还是有点不解,为什么磁盘空间的问题会导致数据文件写入的错误。
继续检查:
ASM的告警日志中出现了如下的信息:
Tue Jun 12 17:00:27 2018
Non critical error DIA-48181 caught while writing to trace file "/oracle/app/diag/asm/+asm/+ASM2/trace/+ASM2_ora_5142.trc"
Error message: HPUX-ia64 Error: 28: No space left on device
Additional information: 1
Writing to the above trace file is disabled for now on...
WARNING: ASM communication error: op 0 state 0x0 (15055)
ERROR: direct connection failure with ASM
NOTE: Deferred communication with ASM instance
这里已经出现了ASM连接中断的信息。
难怪会出现磁盘读写错误
清理掉日志文件之后,告警日志里也没有新的信息写入
检查集群组件状态:
CRS服务已经出现了问题
总结:
应可以推断出,/oracle目录磁盘空间占满,导致了数据库实例通过ASM读写数据文件时,登录ASM出现了错误。 此时就出现了前文中所示的写入system表空间的错误
这里还有一个比较关键的提示:
ORA-29701: unable to connect to Cluster Sychironization Service
这里已经是集群层面的进程出现问题了。与数据文件本身并无联系(清理空间后业务也恢复了正常)
同时给了客户建议:
客户反馈,应用端出现了磁盘读写错误:
同时,登录数据库时也出现了错误:
同时,用户反馈说部分业务已经中断
登录操作系统, 通过查询gv$instance视图,得知是一个双节点的11gR2的集群
检查节点1的数据库告警日志,ASM告警日志,CRSD日志,未发现近期可疑错误信息
登录节点2, 发现数据库服务的/oracle目录的空间占用已达到100%。检查磁盘文件空间占用发现, 监听的产生的listener.log, XML文件占用了大量空间,遂清理之
从报错日志来看,磁盘写入出现了问题,怀疑数据文件有物理坏块。但是用dbv userid/password file='+DATA/数据库名/datafile/system.345' 并未检查出有坏块
清理出oracle软件安装目录之后,用户反映业务已经恢复正常。 但是对于这个错误还是有点不解,为什么磁盘空间的问题会导致数据文件写入的错误。
继续检查:
ASM的告警日志中出现了如下的信息:
Tue Jun 12 17:00:27 2018
Non critical error DIA-48181 caught while writing to trace file "/oracle/app/diag/asm/+asm/+ASM2/trace/+ASM2_ora_5142.trc"
Error message: HPUX-ia64 Error: 28: No space left on device
Additional information: 1
Writing to the above trace file is disabled for now on...
Non critical error ORA-48113 caught while writing to trace file "/oracle/app/diag/asm/+asm/+ASM2/trace/+ASM2_ora_14098.trc"
Error message:Writing to the above trace file is disabled for now on...
WARNING: ASM communication error: op 0 state 0x0 (15055)
ERROR: direct connection failure with ASM
NOTE: Deferred communication with ASM instance
这里已经出现了ASM连接中断的信息。
难怪会出现磁盘读写错误
清理掉日志文件之后,告警日志里也没有新的信息写入
检查集群组件状态:
$ /oracle/grid/bin/crsctl check crs
CRS-4638: Oracle High Availability Services is online
CRS-4535: Cannot communicate with Cluster Ready Services
CRS-4529: Cluster Synchronization Services is online
CRS-4533: Event Manager is online
CRS服务已经出现了问题
总结:
应可以推断出,/oracle目录磁盘空间占满,导致了数据库实例通过ASM读写数据文件时,登录ASM出现了错误。 此时就出现了前文中所示的写入system表空间的错误
这里还有一个比较关键的提示:
ORA-29701: unable to connect to Cluster Sychironization Service
这里已经是集群层面的进程出现问题了。与数据文件本身并无联系(清理空间后业务也恢复了正常)
同时给了客户建议:
改善建议:
1. 建议部署crontab脚本,定期清理/oracle目录下的监听日志以及日志相关的xml文件
2. CRS集群本身已经出现了问题,且经过很久之后也未恢复,建议重启CRS集群服务
通过
/oracle/grid/bin/crsctl stop crs
/oracle/grid/bin/crsctl start crs
数据
日志
文件
错误
空间
磁盘
数据库
问题
集群
检查
目录
信息
建议
登录
业务
同时
客户
节点
服务
用户
数据库的安全要保护哪些东西
数据库安全各自的含义是什么
生产安全数据库录入
数据库的安全性及管理
数据库安全策略包含哪些
海淀数据库安全审计系统
建立农村房屋安全信息数据库
易用的数据库客户端支持安全管理
连接数据库失败ssl安全错误
数据库的锁怎样保障安全
windows服务器网络存储
中移的软件开发人员
数据库的发展趋势论文
mysql外网连接数据库
局域访问数据库视图
创造与魔法载具最便宜的服务器
东大计算机软件开发
双阳区有名的网络技术排名靠前
我的世界怎么保存服务器到手机
es 同步数据库增量数据
华为云服务器密码多次输入错误
js div动态添加数据库
网络安全管理者必读
纯真数据库IP地址查询
梦幻怎么转服务器
奇威网络技术有限公司
租服务器挂游戏违法吗
宣城软件开发培训哪里有
科技互联网力量800字作文
最新通信网络技术资料
数据库服务可以重启服务吗
魔兽世界电信网络服务器
存储服务器一般由哪些公司使用
网络安全工作青岛
数据库技术对工控的影响
一分钟学会电脑软件开发
天翼云服务器三方会议
高新区互联网软件开发方法
软件开发工程师前端职业规划
如何破解集团网络安全助手