互联网服务宕机p550

P550/P570宕机案例分享

      某周末,客户致电,说核心业务无法访问。工程师到达现场,发现客户环境(P550/P570--HACMP)P550两台小机均关机。发现客户现场有部分服务器也已处于关机掉电状态。此时客户才发现,市电周五晚上断电过,但是客户机房配备有2台UPS,机房设备一半一半分别接到2...显示全部

      某周末,客户致电,说核心业务无法访问。工程师到达现场,发现客户环境(P550/P570--HACMP)P550两台小机均关机。发现客户现场有部分服务器也已处于关机掉电状态。此时客户才发现,市电周五晚上断电过,但是客户机房配备有2台UPS,机房设备一半一半分别接到2台UPS上。排查发现其中一台UPS无法供电。而两台小机均有一路电源接到该UPS,导致市电断电后,直接宕机。后将小机通电开机,发现P550无法开机,CPU VRM稳压模块报错,由于客户业务较为重要,将P570已经拉起来,准备将HA集群在IBM P570单节点运行。却发现HA无法将Oracle数据库拉起。由于时间紧迫,手动在P570网卡上添加IP别名后,手动挂载VG,恢复业务。后续,将P550稳压模块进行更换后,发现仍然无法开机,又出现新的报错:11002630,再次更换CPU板后,P550小机正常开机。安排停机窗口进行排查恢复。在处理过程中,集群出现意外,在HA拉起来后,经业务测试,发现/orafile丢失一部分数据,此时备份数据最新的为前一天晚上23点,单天的数据未做备份,只能采取数据恢复,最后成功将数据恢复回来。重新配置HA,模拟故障切换,测试业务,验证数据完整性,业务恢复正常!

收起
参与6

查看其它 1 个回答zwz99999的回答

zwz99999zwz99999系统工程师dcits

it基础规划存在问题,演练、备份不到位

系统集成 · 2017-03-02
浏览1172

回答者

zwz99999
系统工程师dcits
擅长领域: 服务器存储灾备

zwz99999 最近回答过的问题

回答状态

  • 发布时间:2017-03-02
  • 关注会员:3 人
  • 回答浏览:1172
  • X社区推广