myciciy
作者myciciy·2017-03-13 09:52
IT顾问·某金融科技公司

【案例分享】P720异常宕机故障一例

字数 689阅读 6392评论 0赞 3

主机:P720 8202-E4B

现象:

运行正常的某一天,在未出现任何告警的情况下,系统突然访问不了。机房发现主机已经宕机。现场尝试开机,无法正常开机。出现报错。故障灯亮起。

登陆AMM,出现P1-C12、P1-C14、P1 ......,包括CPU,TPMD Card,System Backplane,Firmware等等报错信息。

处理过程:

首先判断可能是CPU故障,关机后,对调CPU位置,将AMM内日志留存后清除,慢启。机子正常启动,无报错信息。但是机子风扇声音异常,与其他正常机子不同,声音异常响,但是系统未出现报错,且可以正常运行。于是未进一步排查。恢复业务。

但是在正常运行了一段时间后,一天机子有突然宕机,毫无预兆,没有一点点防备。这次现象和之前基本相似,只是这次两个CPU都报错,主板报错也再次出现,当然Firmware和新的CPU VRM稳压模块也报错。初步判断,这么多的关键部位同时不可用,还是非常少见的。况且主板若是报错了,那是很严重的。于是,先主要关注了Firmware的报错信息,并且开始怀疑是否是由于微码问题导致的异常宕机,并且导致主板CPU等关键部位报错。于是,决定先进行微码升级,再进一步排查问题。

结果:

微码升级完成后,将AMM报错保留,清除,告警灯手动关闭。AMM中,慢启。成功开机!并且没有报错,系统正常运行!异常的风扇声音也完成消除。由于担心一次重启不够,又进行了几次重启测试。一切正常。CPU主板 VRM报错均消失。不需要进行硬件更换。现在系统稳定运行。

来自社区交流活动“起底宕机事故-深度剖析宕机真相
由社区会员“ACDante”发布

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

3

添加新评论0 条评论

Ctrl+Enter 发表

本文隶属于专栏

AIX系统故障案例集锦
IBM Power AIX PowerHA PowerVM PowerVC IBM flashsystem SVC Storage 等相关技术案例

作者其他文章

相关问题

X社区推广