这个问题中“PowerHA不能切换”,我理解是在生产节点中某些部件出现异常,PowerHA未按预期设想进行切换。
首先需要指出的是:
1. 该类故障在上线之前有没有做过测试
2. 在日常运维中是否周期性检查PowerHA或系统的相关日志
3. 在日常运维中是否定期做切换演练
PowerHA软件的资源组切换涉及到事件的判断、系统命令的执行、一致性判断、应用相关命令的执行等,任何部分的执行错误都会导致最后资源组切换错误,所以,PowerHA方案的设计、测试场景及验证、日常的切换演练都是非常重要的。
当然,在切换过程中失败后,分析相关日志、才能准确知道失败的原因。日志内容包括:
AIX系统日志(errpt)
CAA日志(/var/adm/ras/syslog.caa, snap caa)
Cluster日志(/var/hacmp/adm)
hacmp日志(/var/hacmp/log/hacmp.out, /var/hacmp/log/clutils.log or snap -gc)
...