关于HACMP环境下HADR数据库切换问题的求解

背景环境:      IBM P55A 服务器双机 HACMP集群,假设主机为A和B 连接IBM盘阵DS4700存储  A和B上分别运行DB2 V9.1 通过HADR保障数据同步,A机为主服务器,运行数据库资源组,B机为在线热备服务器,当A机故障进行资源组切换时,通过切换脚本完成HADR角...显示全部
背景环境:
      IBM P55A 服务器双机 HACMP集群,假设主机为A和B 连接IBM盘阵DS4700存储  A和B上分别运行DB2 V9.1 通过HADR保障数据同步,A机为主服务器,运行数据库资源组,B机为在线热备服务器,当A机故障进行资源组切换时,通过切换脚本完成HADR角色转变(takeover)。A、B数据库在盘阵上的各有一份数据,DS4700为双控制器,划分10个LUN,均匀分布于两控制器管理。
      数据库资源组有一个应用监控脚本(APPLICATION MONITOR),每30秒检测一次数据库连接,连接失败后HACMP进行数据库资源组切换。

问题描述:
      问题(1)DS4700盘阵双控中有一个控制器故障,状态为offline,根据维护经验双控模式下坏一个控制器不会对系统造成影响,但当天却出现了数据库资源组由A机切换到B机上的现象,根据HACMP日志分析原因为APPLICATION MONITORE超时未返回导致的,具体提示信息为:
[td]Thu Jun 18 14:10:06 clappmondExit(db2_prd_mon): Called, monitorState is 11
Thu Jun 18 14:10:06 clappmondExit(db2_prd_mon): No response (timeout) from user monitor
      问题(2)资源组切换到B机运行后,于15:31又切换回A机,这次切换的直接原因是由于APPLICATION MONITOR检测到数据库不可用而导致的
      
存在疑问:
      针对问题(1)盘阵属于双控制器,一个控制器故障offline不应该导致系统出现问题,系统为什么会出现异常?即便主机与盘阵的连接存在问题,APPLICATION MONITORE的运行结果也应该是检测到与数据库的连接失败而不是挂起导致超时吧?
       针对问题(2)切换到B机运行后又回切回去的原因不清楚,      (B机数据库当时数据库有大量报错,详见附见)

附件:

附件图标db2diag (1.6 MB)

收起
参与10

查看其它 4 个回答张东焕的回答

张东焕张东焕技术总监IBM官方授权讲师
还是先解决存储的硬件故障,数据库不可用好像都和IO有关。
IT咨询服务 · 2015-06-23
浏览976

回答者

张东焕
技术总监IBM官方授权讲师

张东焕 最近回答过的问题

回答状态

  • 发布时间:2015-06-23
  • 关注会员:5 人
  • 回答浏览:976
  • X社区推广