AIX+HACMP+orcle+rac一节点故障重启

系统环境:AIX 5.3 / HACMP 5.5.0.8 /ORACLE和RAC都是10.0.2.5故障现象:2013年12月23日 5:40左右rac一个节点主机被自动重启,系统报ent1网卡错误,该网卡是channel en4网卡的其中一块,这网卡是rac的私网心跳网卡,错信息如下:zfyw_paydb02:/#errpt -dH  IDENTIFIER TIM...显示全部
系统环境:AIX 5.3 / HACMP 5.5.0.8 /ORACLE和RAC都是10.0.2.5
故障现象:2013年12月23日 5:40左右rac一个节点主机被自动重启,系统报ent1网卡错误,该网卡是channel en4网卡的其中一块,这网卡是rac的私网心跳网卡,错信息如下:
zfyw_paydb02:/#errpt -dH  
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
4FC185D1   1223054113 T H ent1           TRANSMIT FAILURE
=====================================================
zfyw_paydb02:/#errpt -aj 4FC185D1
---------------------------------------------------------------------------
LABEL:          GOENT_TX_ERR
IDENTIFIER:     4FC185D1
Date/Time:       Mon Dec 23 05:41:27 BEIST 2013
Sequence Number: 1286
Machine Id:      00C9CD464C00
Node Id:         zfyw_paydb02
Class:           H
Type:            TEMP
Resource Name:   ent1            
Resource Class:  adapter
Resource Type:   14108902
Location:        U789D.001.DQD5D3G-P1-C4-T2
VPD:            
      2-Port 10/100/1000 Base-TX PCI-X Adapter:
        Part Number.................03N5297
        FRU Number..................03N5297
        EC Level....................H13845
        Manufacture ID..............YL1021
        Network Address.............00215E8ADF0B
        ROM Level.(alterable).......DV0210
Description
TRANSMIT FAILURE
        Recommended Actions
        PERFORM PROBLEM DETERMINATION PROCEDURES
Detail Data
FILE NAME
line: 2266 file: goent_tx.c
PCI ETHERNET STATISTICS
04AC B586 0063 081B 0000 0001 0000 0001 0000 0000 0000 0000 0000 0000 0000 0118
0000 000D 7F2C D294 0000 3922 B5DC 13F4 0000 0004 AAE3 5656 0000 0000 0001 7378
0000 000C 49F8 DEF9 0000 32EB 614D 5F99 0000 0000 0000 0000 0000 0003 0007 CA38
0000 0000 0000 0000 0000 0000 0000 0000 0000 0001 0000 0861 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 BB87 1830 0068 0C00 0000 0000 01A0 0000 0000
0230 0156 0009 F007 0443 0009 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000
DEVICE DRIVER INTERNAL STATE
2222 2222 49F8 DEF9 0000 00C8
SOURCE ADDRESS
0021 5E8A DF0B
我也看到有类似的一个帖子出现,但没有了下文,我和那个帖子的问题特别相似,从nmon监控上卡cpu、mem、i/o都没有特大的波动,请教各位专家,是什么造成心跳网卡出现临时性报错的呢,为什么会重启了节点呢?收起
参与11

查看其它 9 个回答bjibm1188的回答

bjibm1188bjibm1188系统工程师DCITS
个人认为,HA的磁盘心跳和ORACLE的私有网络心跳属两者之间应该是独立的,HA的磁盘心跳应该是只是对HACMP服务有效,不能对ORACLE提供心跳服务。而RAC所使用的心跳的则只是私有网络心跳。加之楼主的etherchannel做的应该不是主备模式(猜测的:lol),ent1 fail后,RAC心跳中断,然后RAC发出指令使故障节点重启。
仅个人一点拙见,不知正确与否。
互联网服务 · 2014-01-03
浏览2438

回答者

bjibm1188
系统工程师DCITS
擅长领域: 云计算服务器存储

bjibm1188 最近回答过的问题

回答状态

  • 发布时间:2014-01-03
  • 关注会员:1 人
  • 回答浏览:2438
  • X社区推广