互联网服务案例分享

Power 570 595引起宕机事件

事情起因:由于机器宕机是在周六,是客户的核心应用,但周六客户没有人上班,当周一上班的时候发现所有的办公,邮件系统等一半的核心应用不能访问,经过现场机房管理人员的临时排查,发现小机Power595后面所有的I/O柜掉电,Power570黄灯亮起,绿灯慢闪当工程师到达现场之后发现,按照与客户...显示全部

事情起因:

由于机器宕机是在周六,是客户的核心应用,但周六客户没有人上班,当周一上班的时候发现所有的办公,邮件系统等一半的核心应用不能访问,经过现场机房管理人员的临时排查,发现小机Power595后面所有的I/O柜掉电,Power570黄灯亮起,绿灯慢闪当工程师到达现场之后发现,按照与客户沟通好结果,我们开始干活,大概折腾了6个小时,Power595 还是没有启动起来,但power570可以正常访问了,为了赶紧让客户生产数据,我们临时决定,用power570临时做个lpar让存储链接过来,先拉起应用,再又折腾了3个多小时之后,所有应用都可以正常访问,我们继续排查Power5 595 我们更换了CEC DCA 内存板,CPU 都没有解决问题,最后更换了pubook问题解决了,花费时间3天

问题原因:电工改造线路,造成了机房断电,UPS临时接管,由于电池放了太久,机器功率太大,造成低电压运行,造成设备不能正常工作,更为关键的是电工出现问题之后没有及时检查电路,根据师傅的供述大概过了1分钟又把交流电送出去,这个电压冲击是很厉害的,经排查此电工无证施工,客户已经提起诉讼。

收起
参与9

查看其它 2 个回答jxnxsdengyu的回答

jxnxsdengyujxnxsdengyu课题专家组系统工程师江西农信

HA都没做,还要临时做LPAR,都不重视吗?外在环境任由变化,硬件电力等不可控,冗余备份起码还是要做到位的。

银行 · 2017-03-02
浏览1808

回答者

jxnxsdengyu
系统工程师江西农信
擅长领域: 存储灾备双活

jxnxsdengyu 最近回答过的问题

回答状态

  • 发布时间:2017-03-02
  • 关注会员:5 人
  • 回答浏览:1808
  • X社区推广