hamp的错误导致集群其中一个节点多次宕机,求助?

系统环境:oracleRAC 11.2.0.4AIX 6100-07-04-1216hacmp 5.5硬件环境:数据存储两台、power7小机两台系统架构:1、两台小机做oracleRAC集群,数据库数据存储在两台存储上,利用ASM做两个failgroup实现数据镜像。2、hacmp搭建集群创建oracle OCRVOTE的共享卷组(两台存储各取一...显示全部

系统环境:
oracleRAC 11.2.0.4
AIX 6100-07-04-1216
hacmp 5.5
硬件环境:
数据存储两台、power7小机两台
系统架构:
1、两台小机做oracleRAC集群,数据库数据存储在两台存储上,利用ASM做两个failgroup实现数据镜像。
2、hacmp搭建集群创建oracle OCRVOTE的共享卷组(两台存储各取一块磁盘,实现存储冗余),创建ocrvote 3个共享卷,再创建Votedisk。
3、hamcp配置包括两个磁盘心跳ether0、ether1,ether0为hacmp心跳地址,ether1为oracle OCRVOTE心跳地址。两个磁盘心跳diskdb1、diskhb2。三个共享卷组,两个是磁盘心跳卷组,一个是OCRVOTE用共享卷组。

目前遇到的问题是:
hamcp一个节点不定时发生宕机,疑似都是由于hacmp心跳异常引起。
hacmp的状态如下图:


共享卷组状态正常:
hdisk22         00f83b6be2ee8e92                    votevg          concurrent
hdisk23         00f83b6be2ee9137                    votevg          concurrent
hdisk24         00f83b6b115df95e                    diskhbvg        concurrent
hdisk25         00f83b6b116fe412                    diskhb2vg       concurrent

1、aix系统日志显示如下:
2BFA76F6   1215043720 T S SYSPROC        SYSTEM SHUTDOWN BY USER
9DBCFDEE   1215043920 T O errdemon       ERROR LOGGING TURNED ON
AC9144F4   1215043020 T H ent17          HEA PORT DOWN
AC9144F4   1215042620 T H ent19          HEA PORT DOWN
EC0BCCD4   1215042420 T H ent9           ETHERNET DOWN
EC0BCCD4   1215042420 T H ent6           ETHERNET DOWN
AC9144F4   1215042320 T H ent18          HEA PORT DOWN
AC9144F4   1215042320 T H ent17          HEA PORT DOWN

2、hacmp日志:
nim.topsvcs.rhdisk24.vote日志一直报下面信息:
 Heartbeat was NOT received. Missed HBs: 1. Limit: 4
 Heartbeat was NOT received. Missed HBs: 1. Limit: 4
 Heartbeat was NOT received. Missed HBs: 1. Limit: 4
 Heartbeat was NOT received. Missed HBs: 1. Limit: 4
 Heartbeat was NOT received. Missed HBs: 1. Limit: 4
 Heartbeat was NOT received. Missed HBs: 1. Limit: 4
 Heartbeat was NOT received. Missed HBs: 1. Limit: 4
 Heartbeat was NOT received. Missed HBs: 1. Limit: 4

宕机发生在12月14日上午4点30分左右,收集了一下nmon监控信息:





收起
参与12

查看其它 2 个回答dfxsoft的回答

dfxsoftdfxsoft软件开发工程师深蓝

不用疑似,就是因为网络不稳造成的。
检查网络状态,交换机。
HA发现节点间通信不稳定时,就会将一个节点踢出HA,会造成节点重启。

互联网服务 · 2021-03-11
浏览1321

回答者

dfxsoft
软件开发工程师深蓝
擅长领域: 服务器UnixAIX

dfxsoft 最近回答过的问题

回答状态

  • 发布时间:2021-03-11
  • 关注会员:4 人
  • 回答浏览:1321
  • X社区推广