作为高可用性的保证,通过了配置和测试之后,系统成功上线了,但不要忘记,PowerHA也需要精心维护才能在最关键的时刻发生作用,否则不光是多余的摆设,维护人员会由于“已经安装好HA了,关键时刻自然会发生作用”的想法反而高枕无忧,麻痹大意。
我们统计了以往遇到的切换不成功或误切换的场景,编制了测试成功切换却失败的原因及对策,如下表:
PowerHA切换问题表故障现象 | 原因 | 根本原因 | 对策 |
无法切换1 | 测试一段时间后两边HA不同步 | 没通过HA的功能(含C-SPOC)进行用户、文件系统等系统变更。 | 制定和遵守规范,定期检查,定修及时处理
|
无法切换2 | 应用停不下来,导致超时,文件系统不能umount | 停止脚本问题 | 规范化增加kill_vg_user脚本 |
切换成功但应用不好用 | 应用启动异常 | 应用有变动,停止脚本异常停止或启动脚本不正确 | 规范化和及时更新起停脚本
|
切换成功但应用不好用 | 备机配置不符合运行要求 | 各类系统和软件参数不合适 | 制定检查规范初稿,通过运维切换测试检查确认。 |
切换成功但通信不好用1 | 网络路由不通
| 网络配置原因 | 修正测试路由,通过运维切换测试检查确认。 |
切换成功但通信不好用2 | 通信软件配置问题 | 由于一台主机同时漂移同一网段的2个服务地址,通信电文从另一个IP地址通信,导致错误 | 修正配置,绑定指定服务ip。 |
误切换 | DMS问题 | 系统负荷持续过高 | 参见[url=#_HACMP的DMS问题的修正]经验篇DMS相应章节[/url] |
注:请记住,对于客户来说,不管什么原因,“应用中断超过了5-10分钟,就是PowerHA切换不成功”,也意味着前面所有的工作都白费了,所以维护工作的重要性也是不言而谕的。
收起