P720异常宕机故障一例

主机:P720 8202-E4B  

现象:

        运行正常的某一天,在未出现任何告警的情况下,系统突然访问不了。机房发现主机已经宕机。现场尝试开机,无法正常开机。出现报错。故障灯亮起。

登陆AMM,出现P1-C12、P1-C14、P1 ......,包括CPU,TPMD Card,System Backplane,Firmware等等报错信息。

处理过程:

        首先判断可能是CPU故障,关机后,对调CPU位置,将AMM内日志留存后清除,慢启。机子正常启动,无报错信息。但是机子风扇声音异常,与其他正常机子不同,声音异常响,但是系统未出现报错,且可以正常运行。于是未进一步排查。恢复业务。

      但是在正常运行了一段时间后,一天机子有突然宕机,毫无预兆,没有一点点防备。这次现象和之前基本相似,只是这次两个CPU都报错,主板报错也再次出现,当然Firmware和新的CPU  VRM稳压模块也报错。初步判断,这么多的关键部位同时不可用,还是非常少见的。况且主板若是报错了,那是很严重的。于是,先主要关注了Firmware的报错信息,并且开始怀疑是否是由于微码问题导致的异常宕机,并且导致主板CPU等关键部位报错。于是,决定先进行微码升级,再进一步排查问题。

结果:

   微码升级完成后,将AMM报错保留,清除,告警灯手动关闭。AMM中,慢启。成功开机!并且没有报错,系统正常运行!异常的风扇声音也完成消除。由于担心一次重启不够,又进行了几次重启测试。一切正常。CPU主板 VRM报错均消失。不需要进行硬件更换。现在系统稳定运行。

参与5

1同行回答

byamingbyaming  小型机/X86服务器/常见品牌存储硬件运维 , NONE
很早的时候刚玩P740,具体型号忘记了;开始内存上的不对但是不起机,能到01状态不加电,照理应该是加电启机然后报错才对,后来找来适合的内存还是依旧。我尝试升级微码到当时较新版本,机器就起来了。720换U得操作小心点额,那玩意有点分量而且吸盘容易出事,一砸下去就废了整个板了。...显示全部

很早的时候刚玩P740,具体型号忘记了;开始内存上的不对但是不起机,能到01状态不加电,照理应该是加电启机然后报错才对,后来找来适合的内存还是依旧。


我尝试升级微码到当时较新版本,机器就起来了。


720换U得操作小心点额,那玩意有点分量而且吸盘容易出事,一砸下去就废了整个板了。

收起
IT其它 · 2017-03-01
浏览2128

提问者

Acdante
Acdante111745
技术总监SHFY
擅长领域: 存储服务器数据库

问题来自

相关问题

问题状态

  • 发布时间:2017-03-01
  • 关注会员:3 人
  • 问题浏览:5635
  • 最近回答:2017-03-01
  • X社区推广