银行AIX cfgmgr 故障案例

AIX执行cfgmgr造成EDGE Server的HA切换

分享一个我们同事遇到的“血案”：系统日常运维中，我们经常要对重要AIX生产系统的操作环境进行mksysb备份，但是同事在一次例行的mksysb备份过程中，意外导致了 EDGE系统应用停止服务。问题描述： Edge server系统通过HA方式运行IBM P570小型机上的两个分区A和B上，但...显示全部

分享一个我们同事遇到的“血案”：

系统日常运维中，我们经常要对重要AIX生产系统的操作环境进行mksysb备份，但是同事在一次例行的mksysb备份过程中，意外导致了 EDGE系统应用停止服务。

问题描述：

Edge server系统通过HA方式运行IBM P570小型机上的两个分区A和B上，但每个小型机上还有其他2个分区。当天需要执行mksysb备份A机分区，但备份的磁带机没在A机上，而在其他分区D机上，因此变更的步骤中包括了如下操作：

1、在D机上通过命令找到磁带机所处属的scsi设备

lsdev –C|grep tape

2、在D机上删除scsi设备

rmdev –dl sissas0 –R

3、通过动态Lpar将磁带机设备move至A机

4、在A机上执行cfgmgr命令扫描磁带机设备

cfgmgr

5、在A机上进行操作系统mksysb备份

smitty mksysb

但是就在mksysb的时候，我们发现A机系统交易异常，进而查到A机上的EDGE server服务异常：

1、无法连接EDGE服务器，端口不通。

2、从A机的EDGE HA日志中可以看到：

Wed Aug 5 02:20:48 BEIST 2015 >>>goActive 192.18.12.68

aliasing for cluster A

Wed Aug 5 02:20:48 BEIST 2015 -------------------- goActive

3、从B机的EDGE HA日志中可以看到

Wed Aug 5 20:20:34 BEIST 2015 <<

removing aliases for cluster A

Wed Aug 5 20:20:34 BEIST 2015 -------------------- goStandby

4、通过dscontrol可以确认A机的EDGE服务已经切换至B机

5、虽然服务切换至B机，但是交易却显示不正常，而且无法正常停止EDGE服务。

问题处理：

1、B机重启系统

2、B机通过dsserver重新启动edge服务后，交易恢复正常

3、A机重启系统

4、A机通过dsserver启动edge服务，接管回BGSP的服务

问题分析：

EDGE HA切换的标准是：

依据1：如果心跳在指定时间（3秒钟）没有收到回应，则一定会进行HA切换；
依据2：如果心跳已经在指定时间收到了回应，心跳中包含了发送心跳方可以REACH的目标数量，如果自己可以REACH的数量超过了对方的数量，则设置自己为ACTIVE。如果这个现象发生在备机上，就会出现HA切换。

而cfgmgr命令会扫描当前操作系统所挂载的所有硬件设备，包括网卡。本次变更进行cfgmgr扫描的时候，造成了网卡有3秒钟的中断，因此触发了EDGE HA切换，但这并不是必然的结果，只是有概率发生。

收起

关注6

参与13

查看其它 4 个回答老么的回答

老么系统工程师mbi

赞一个

互联网服务 · 2016-11-28

AIX执行cfgmgr造成EDGE Server的HA切换

查看其它 4 个回答老么的回答

回答者

老么最近回答过的问题

回答状态

AIX执行cfgmgr造成EDGE Server的HA切换

查看其它 4 个回答老么的回答

回答者

老么 最近回答过的问题

回答状态

老么最近回答过的问题