案例一:设备型号IBM Power595
事件起因,本来巡检已经发现其中的一个I/O柜电源故障,在线更换走脚步的时候,脚步执行到一半引起该I/O柜突然掉电,解决方法重启了该I/O柜
原因引起:一线工程师巡检时候不够仔细,因为该同一个I/O其实坏了2个电源,只不过另外一个没有报错来具体的位置,但已经报出来该I/O的部件号,但也说明了IBM小机没有完全报错具体槽位,只报错了大概的位置;
解决方法:设备下电,更换两个I/O DCA,然后设备开机,问题解决。
一线运维确实不够自信,放过了隐患的给宕机买下了种子。越是离谱的宕机事件,问题往往越简单,越容易被忽视。
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30