事情起因:
由于机器宕机是在周六,是客户的核心应用,但周六客户没有人上班,当周一上班的时候发现所有的办公,邮件系统等一半的核心应用不能访问,经过现场机房管理人员的临时排查,发现小机Power595后面所有的I/O柜掉电,Power570黄灯亮起,绿灯慢闪当工程师到达现场之后发现,按照与客户沟通好结果,我们开始干活,大概折腾了6个小时,Power595 还是没有启动起来,但power570可以正常访问了,为了赶紧让客户生产数据,我们临时决定,用power570临时做个lpar让存储链接过来,先拉起应用,再又折腾了3个多小时之后,所有应用都可以正常访问,我们继续排查Power5 595 我们更换了CEC DCA 内存板,CPU 都没有解决问题,最后更换了pubook问题解决了,花费时间3天
问题原因:
电工改造线路,造成了机房断电,UPS临时接管,由于电池放了太久,机器功率太大,造成低电压运行,造成设备不能正常工作,更为关键的是电工出现问题之后没有及时检查电路,根据师傅的供述大概过了1分钟又把交流电送出去,这个电压冲击是很厉害的,经排查此电工无证施工,客户已经提起诉讼。
来自社区交流活动“起底宕机事故-深度剖析宕机真相”
由社区会员“shizhe1030”发布
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞7
添加新评论2 条评论
2017-06-05 08:46
2017-04-11 12:38