时间太久,记录一下流程吧。
ibm 570意外宕机,处理过程如下:
- 首先查看asmi日志,电源和风扇故障,更换了2个电源和1个风扇后,可以启动到standby模式。但是非常多的firmware报错。
- 升级微码到sf240-417后,微码报错消失。
- 激活分区失败,hmc终端会出现几秒的”ide inited failed“提示,然后消失。接着卡死,报找不到硬盘。
- 观察外观,发现后端的光纤卡灯特别弱,有时会不亮。
- 查了下570的红皮书结构图,发现ide controller(红线圈住部分)同时处理pci设备和硬盘背板设备过来的io,根据现有故障现象,判定ide controller有故障
- 通过ibm system information center,定位到ide controller的location code 为p1-15,不是一个可替换的FRU,必须随同IO backbone(就是主板)一起更换。
- 更换io backbone后,系统正常启动,进入系统微调后,一切正常。
来自社区交流活动“起底宕机事故-深度剖析宕机真相”
由社区专家“王巧雷”发布
添加新评论0 条评论