互联网服务PowerHAPowerHA故障

PowerHA平时都会有那几个故障,大致原因?

PowerHA平时都会有那几个故障,大致原因?希望专家能给分析说说

参与10

1同行回答

mxinmxin资深工程师上海宝信软件股份有限公司
作为高可用性的保证,通过了配置和测试之后,系统成功上线了,但不要忘记,PowerHA也需要精心维护才能在最关键的时刻发生作用,否则不光是多余的摆设,维护人员会由于“已经安装好HA了,关键时刻自然会发生作用”的想法反而高枕无忧,麻痹大意。  我们统计了以往遇到的切换不...显示全部

作为高可用性的保证,通过了配置和测试之后,系统成功上线了,但不要忘记,PowerHA也需要精心维护才能在最关键的时刻发生作用,否则不光是多余的摆设,维护人员会由于“已经安装好HA了,关键时刻自然会发生作用”的想法反而高枕无忧,麻痹大意。

  我们统计了以往遇到的切换不成功或误切换的场景,编制了测试成功切换却失败的原因及对策,如下表:

PowerHA切换问题表

故障现象

原因

根本原因

对策

无法切换1

测试一段时间后两边HA不同步

没通过HA的功能(含C-SPOC)进行用户、文件系统等系统变更。

制定和遵守规范,定期检查,定修及时处理

无法切换2

应用停不下来,导致超时,文件系统不能umount

停止脚本问题

规范化增加kill_vg_user脚本

切换成功但应用不好用

应用启动异常

应用有变动,停止脚本异常停止或启动脚本不正确

规范化和及时更新起停脚本

切换成功但应用不好用

备机配置不符合运行要求

各类系统和软件参数不合适

制定检查规范初稿,通过运维切换测试检查确认。

切换成功但通信不好用1

网络路由不通

网络配置原因

修正测试路由,通过运维切换测试检查确认。

切换成功但通信不好用2

通信软件配置问题

由于一台主机同时漂移同一网段的2个服务地址,通信电文从另一个IP地址通信,导致错误

修正配置,绑定指定服务ip。

误切换

DMS问题

系统负荷持续过高

参见[url=#_HACMP的DMS问题的修正]经验篇DMS相应章节[/url]

注:请记住,对于客户来说,不管什么原因,“应用中断超过了5-10分钟,就是PowerHA切换不成功”,也意味着前面所有的工作都白费了,所以维护工作的重要性也是不言而谕的。

收起
IT咨询服务 · 2015-10-30
浏览1395

提问者

wenjing
软件架构设计师高德地图
擅长领域: 大数据商业智能数据库

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2015-10-29
  • 关注会员:5 人
  • 问题浏览:4412
  • 最近回答:2015-10-30
  • X社区推广