互联网服务宕机p550

P550/P570宕机案例分享

      某周末,客户致电,说核心业务无法访问。工程师到达现场,发现客户环境(P550/P570--HACMP)P550两台小机均关机。发现客户现场有部分服务器也已处于关机掉电状态。此时客户才发现,市电周五晚上断电过,但是客户机房配备有2台UPS,机房设备一半一半分别接到2台UPS上。排查发现其中一台UPS无法供电。而两台小机均有一路电源接到该UPS,导致市电断电后,直接宕机。后将小机通电开机,发现P550无法开机,CPU VRM稳压模块报错,由于客户业务较为重要,将P570已经拉起来,准备将HA集群在IBM P570单节点运行。却发现HA无法将Oracle数据库拉起。由于时间紧迫,手动在P570网卡上添加IP别名后,手动挂载VG,恢复业务。后续,将P550稳压模块进行更换后,发现仍然无法开机,又出现新的报错:11002630,再次更换CPU板后,P550小机正常开机。安排停机窗口进行排查恢复。在处理过程中,集群出现意外,在HA拉起来后,经业务测试,发现/orafile丢失一部分数据,此时备份数据最新的为前一天晚上23点,单天的数据未做备份,只能采取数据恢复,最后成功将数据恢复回来。重新配置HA,模拟故障切换,测试业务,验证数据完整性,业务恢复正常!

参与6

提问者

Acdante
Acdante111745
技术总监SHFY
擅长领域: 存储服务器数据库

问题来自

相关问题

问题状态

  • 发布时间:2017-03-02
  • 关注会员:3 人
  • 问题浏览:5018
  • 最近回答:2017-03-02
  • X社区推广