AIX+HACMP+orcle+rac一节点故障重启

系统环境:AIX 5.3 / HACMP 5.5.0.8 /ORACLE和RAC都是10.0.2.5
故障现象:2013年12月23日 5:40左右rac一个节点主机被自动重启,系统报ent1网卡错误,该网卡是channel en4网卡的其中一块,这网卡是rac的私网心跳网卡,错信息如下:
zfyw_paydb02:/#errpt -dH  
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
4FC185D1   1223054113 T H ent1           TRANSMIT FAILURE
=====================================================
zfyw_paydb02:/#errpt -aj 4FC185D1
---------------------------------------------------------------------------
LABEL:          GOENT_TX_ERR
IDENTIFIER:     4FC185D1
Date/Time:       Mon Dec 23 05:41:27 BEIST 2013
Sequence Number: 1286
Machine Id:      00C9CD464C00
Node Id:         zfyw_paydb02
Class:           H
Type:            TEMP
Resource Name:   ent1            
Resource Class:  adapter
Resource Type:   14108902
Location:        U789D.001.DQD5D3G-P1-C4-T2
VPD:            
      2-Port 10/100/1000 Base-TX PCI-X Adapter:
        Part Number.................03N5297
        FRU Number..................03N5297
        EC Level....................H13845
        Manufacture ID..............YL1021
        Network Address.............00215E8ADF0B
        ROM Level.(alterable).......DV0210
Description
TRANSMIT FAILURE
        Recommended Actions
        PERFORM PROBLEM DETERMINATION PROCEDURES
Detail Data
FILE NAME
line: 2266 file: goent_tx.c
PCI ETHERNET STATISTICS
04AC B586 0063 081B 0000 0001 0000 0001 0000 0000 0000 0000 0000 0000 0000 0118
0000 000D 7F2C D294 0000 3922 B5DC 13F4 0000 0004 AAE3 5656 0000 0000 0001 7378
0000 000C 49F8 DEF9 0000 32EB 614D 5F99 0000 0000 0000 0000 0000 0003 0007 CA38
0000 0000 0000 0000 0000 0000 0000 0000 0000 0001 0000 0861 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 BB87 1830 0068 0C00 0000 0000 01A0 0000 0000
0230 0156 0009 F007 0443 0009 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000
DEVICE DRIVER INTERNAL STATE
2222 2222 49F8 DEF9 0000 00C8
SOURCE ADDRESS
0021 5E8A DF0B
我也看到有类似的一个帖子出现,但没有了下文,我和那个帖子的问题特别相似,从nmon监控上卡cpu、mem、i/o都没有特大的波动,请教各位专家,是什么造成心跳网卡出现临时性报错的呢,为什么会重启了节点呢?
参与11

10同行回答

板凳末端板凳末端系统工程师**银行
rac的心跳有两种,一种是voting disk的磁盘心跳,另一种就是私有网卡,私有网卡既用作心跳又用作cache fusion,不过确实没见过私有网卡用etherchannel的,对于单块网卡做私有网卡的情况,一旦网卡down了,该网卡所在的节点就会被重启。...显示全部
rac的心跳有两种,一种是voting disk的磁盘心跳,另一种就是私有网卡,私有网卡既用作心跳又用作cache fusion,不过确实没见过私有网卡用etherchannel的,对于单块网卡做私有网卡的情况,一旦网卡down了,该网卡所在的节点就会被重启。收起
银行 · 2013-12-24
浏览2340
myciciymyciciy联盟成员IT顾问某金融科技公司
看日志吧 可能是网络心跳导致显示全部
看日志吧 可能是网络心跳导致收起
银行 · 2013-12-23
浏览2433

提问者

loukin
系统工程师联通

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2013-12-23
  • 关注会员:1 人
  • 问题浏览:11403
  • 最近回答:2014-05-11
  • X社区推广