互联网服务宕机p550

P550/P570宕机案例分享

      某周末,客户致电,说核心业务无法访问。工程师到达现场,发现客户环境(P550/P570--HACMP)P550两台小机均关机。发现客户现场有部分服务器也已处于关机掉电状态。此时客户才发现,市电周五晚上断电过,但是客户机房配备有2台UPS,机房设备一半一半分别接到2台UPS上。排查发现其中一台UPS无法供电。而两台小机均有一路电源接到该UPS,导致市电断电后,直接宕机。后将小机通电开机,发现P550无法开机,CPU VRM稳压模块报错,由于客户业务较为重要,将P570已经拉起来,准备将HA集群在IBM P570单节点运行。却发现HA无法将Oracle数据库拉起。由于时间紧迫,手动在P570网卡上添加IP别名后,手动挂载VG,恢复业务。后续,将P550稳压模块进行更换后,发现仍然无法开机,又出现新的报错:11002630,再次更换CPU板后,P550小机正常开机。安排停机窗口进行排查恢复。在处理过程中,集群出现意外,在HA拉起来后,经业务测试,发现/orafile丢失一部分数据,此时备份数据最新的为前一天晚上23点,单天的数据未做备份,只能采取数据恢复,最后成功将数据恢复回来。重新配置HA,模拟故障切换,测试业务,验证数据完整性,业务恢复正常!

参与6

2同行回答

zwz99999zwz99999  系统工程师 , dcits
it基础规划存在问题,演练、备份不到位显示全部

it基础规划存在问题,演练、备份不到位

收起
系统集成 · 2017-03-02
浏览1153
myciciymyciciy  IT顾问 , 某金融科技公司
道路是曲折的,结果很圆满,从这个案例可以看出来IT基础架构风险因素有多少,用户对IT重视远远不够,必要的切换演练,常规数据备份日常验证,设备日常巡检都做的不是很到位。还好我们的工程师有水平一一化解。...显示全部

道路是曲折的,结果很圆满,从这个案例可以看出来IT基础架构风险因素有多少,用户对IT重视远远不够,必要的切换演练,常规数据备份日常验证,设备日常巡检都做的不是很到位。还好我们的工程师有水平一一化解。

收起
银行 · 2017-03-02
浏览1156

提问者

Acdante
Acdante111745
技术总监SHFY
擅长领域: 存储服务器数据库

问题来自

问题状态

  • 发布时间:2017-03-02
  • 关注会员:3 人
  • 问题浏览:4996
  • 最近回答:2017-03-02
  • X社区推广