互联网服务案例分享

Power 570 595引起宕机事件

事情起因:

由于机器宕机是在周六,是客户的核心应用,但周六客户没有人上班,当周一上班的时候发现所有的办公,邮件系统等一半的核心应用不能访问,经过现场机房管理人员的临时排查,发现小机Power595后面所有的I/O柜掉电,Power570黄灯亮起,绿灯慢闪当工程师到达现场之后发现,按照与客户沟通好结果,我们开始干活,大概折腾了6个小时,Power595 还是没有启动起来,但power570可以正常访问了,为了赶紧让客户生产数据,我们临时决定,用power570临时做个lpar让存储链接过来,先拉起应用,再又折腾了3个多小时之后,所有应用都可以正常访问,我们继续排查Power5 595 我们更换了CEC DCA 内存板,CPU 都没有解决问题,最后更换了pubook问题解决了,花费时间3天

问题原因:电工改造线路,造成了机房断电,UPS临时接管,由于电池放了太久,机器功率太大,造成低电压运行,造成设备不能正常工作,更为关键的是电工出现问题之后没有及时检查电路,根据师傅的供述大概过了1分钟又把交流电送出去,这个电压冲击是很厉害的,经排查此电工无证施工,客户已经提起诉讼。

参与9

3同行回答

jxnxsdengyujxnxsdengyu课题专家组系统工程师江西农信
HA都没做,还要临时做LPAR,都不重视吗?外在环境任由变化,硬件电力等不可控,冗余备份起码还是要做到位的。显示全部

HA都没做,还要临时做LPAR,都不重视吗?外在环境任由变化,硬件电力等不可控,冗余备份起码还是要做到位的。

收起
银行 · 2017-03-02
浏览1802
zwz99999zwz99999系统工程师dcits
核心业务起码的双机都没有实现,怎么实现业务系统的高可用性,这个从最初的规划就 留下了隐患!显示全部

核心业务起码的双机都没有实现,怎么实现业务系统的高可用性,这个从最初的规划就 留下了隐患!

收起
系统集成 · 2017-03-02
浏览1786
myciciymyciciyIT顾问某金融科技公司
真实的写照,越是对基础设施监控维护保养不到位,就会发生必然的\"灾难\".一定要记住墨菲定律就在我们身边。显示全部

真实的写照,越是对基础设施监控维护保养不到位,就会发生必然的\"灾难\".一定要记住墨菲定律就在我们身边。

收起
银行 · 2017-03-01
浏览1774

提问者

shizhe1030
软件开发工程师北京某某科技有限公司
擅长领域: 服务器系统运维存储

问题来自

问题状态

  • 发布时间:2017-03-01
  • 关注会员:5 人
  • 问题浏览:6133
  • 最近回答:2017-03-02
  • X社区推广