AIX+HACMP+orcle+rac一节点故障重启

系统环境:AIX 5.3 / HACMP 5.5.0.8 /ORACLE和RAC都是10.0.2.5
故障现象:2013年12月23日 5:40左右rac一个节点主机被自动重启,系统报ent1网卡错误,该网卡是channel en4网卡的其中一块,这网卡是rac的私网心跳网卡,错信息如下:
zfyw_paydb02:/#errpt -dH  
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
4FC185D1   1223054113 T H ent1           TRANSMIT FAILURE
=====================================================
zfyw_paydb02:/#errpt -aj 4FC185D1
---------------------------------------------------------------------------
LABEL:          GOENT_TX_ERR
IDENTIFIER:     4FC185D1
Date/Time:       Mon Dec 23 05:41:27 BEIST 2013
Sequence Number: 1286
Machine Id:      00C9CD464C00
Node Id:         zfyw_paydb02
Class:           H
Type:            TEMP
Resource Name:   ent1            
Resource Class:  adapter
Resource Type:   14108902
Location:        U789D.001.DQD5D3G-P1-C4-T2
VPD:            
      2-Port 10/100/1000 Base-TX PCI-X Adapter:
        Part Number.................03N5297
        FRU Number..................03N5297
        EC Level....................H13845
        Manufacture ID..............YL1021
        Network Address.............00215E8ADF0B
        ROM Level.(alterable).......DV0210
Description
TRANSMIT FAILURE
        Recommended Actions
        PERFORM PROBLEM DETERMINATION PROCEDURES
Detail Data
FILE NAME
line: 2266 file: goent_tx.c
PCI ETHERNET STATISTICS
04AC B586 0063 081B 0000 0001 0000 0001 0000 0000 0000 0000 0000 0000 0000 0118
0000 000D 7F2C D294 0000 3922 B5DC 13F4 0000 0004 AAE3 5656 0000 0000 0001 7378
0000 000C 49F8 DEF9 0000 32EB 614D 5F99 0000 0000 0000 0000 0000 0003 0007 CA38
0000 0000 0000 0000 0000 0000 0000 0000 0000 0001 0000 0861 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 BB87 1830 0068 0C00 0000 0000 01A0 0000 0000
0230 0156 0009 F007 0443 0009 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000
DEVICE DRIVER INTERNAL STATE
2222 2222 49F8 DEF9 0000 00C8
SOURCE ADDRESS
0021 5E8A DF0B
我也看到有类似的一个帖子出现,但没有了下文,我和那个帖子的问题特别相似,从nmon监控上卡cpu、mem、i/o都没有特大的波动,请教各位专家,是什么造成心跳网卡出现临时性报错的呢,为什么会重启了节点呢?
参与11

10同行回答

maguangmaguang高级系统工程师、DBA同方鼎欣
小型机安装配置完全手册显示全部
小型机安装配置完全手册收起
系统集成 · 2014-05-11
浏览2705
donnieyendonnieyen数据库管理员重庆坤基科技有限公司
我也想知道楼主的问题是什么原因显示全部
我也想知道楼主的问题是什么原因收起
系统集成 · 2014-01-05
浏览2431
bjibm1188bjibm1188系统工程师DCITS
个人认为,HA的磁盘心跳和ORACLE的私有网络心跳属两者之间应该是独立的,HA的磁盘心跳应该是只是对HACMP服务有效,不能对ORACLE提供心跳服务。而RAC所使用的心跳的则只是私有网络心跳。加之楼主的etherchannel做的应该不是主备模式(猜测的:lol),ent1 fail后,RAC心跳中断,然后RAC发...显示全部
个人认为,HA的磁盘心跳和ORACLE的私有网络心跳属两者之间应该是独立的,HA的磁盘心跳应该是只是对HACMP服务有效,不能对ORACLE提供心跳服务。而RAC所使用的心跳的则只是私有网络心跳。加之楼主的etherchannel做的应该不是主备模式(猜测的:lol),ent1 fail后,RAC心跳中断,然后RAC发出指令使故障节点重启。
仅个人一点拙见,不知正确与否。收起
互联网服务 · 2014-01-03
浏览2436
fontfont软件开发工程师tm
rac的心跳有两种,一种是voting disk的磁盘心跳,另一种就是私有网卡,私有网卡既用作心跳又用作cache fusion,不过确实没见过私有网卡用etherchannel的,对于单块网卡做私有网卡的情况,一旦网卡down了,该网卡所在的节点就会被重启。按道理rac的心跳既有磁盘心跳,又有私有网卡做心跳,...显示全部
rac的心跳有两种,一种是voting disk的磁盘心跳,另一种就是私有网卡,私有网卡既用作心跳又用作cache fusion,不过确实没见过私有网卡用etherchannel的,对于单块网卡做私有网卡的情况,一旦网卡down了,该网卡所在的节点就会被重启。

按道理rac的心跳既有磁盘心跳,又有私有网卡做心跳,当网卡心跳断了,但磁盘心跳还存在,应该会保持心跳正常,为什么还会重启呢?收起
互联网服务 · 2014-01-03
浏览2455
amyandtian2amyandtian2软件开发工程师广西联怡科技有限公司
单从ERRPT 应该看不出问题所在,我觉得应该先排除网卡通信问题,排除硬件问题,然后再从HA日志,ORACLE 日志中找问题显示全部
单从ERRPT 应该看不出问题所在,我觉得应该先排除网卡通信问题,排除硬件问题,然后再从HA日志,ORACLE 日志中找问题收起
互联网服务 · 2013-12-27
浏览2394
板凳末端板凳末端系统工程师**银行
rac的心跳有两种,一种是voting disk的磁盘心跳,另一种就是私有网卡,私有网卡既用作心跳又用作cache fusion,不过确实没见过私有网卡用etherchannel的,对于单块网卡做私有网卡的情况,一旦网卡down了,该网卡所在的节点就会被重启。...显示全部
rac的心跳有两种,一种是voting disk的磁盘心跳,另一种就是私有网卡,私有网卡既用作心跳又用作cache fusion,不过确实没见过私有网卡用etherchannel的,对于单块网卡做私有网卡的情况,一旦网卡down了,该网卡所在的节点就会被重启。收起
银行 · 2013-12-24
浏览2313
zwz99999zwz99999系统工程师dcits
rac心跳一般是采用磁盘做的,私有网卡我没见过用etherchannel的,public 网卡可以用etherchannel,像这种情况看看你etherchannel的设置或者看看oracle日志,看是哪个方面的问题!显示全部
rac心跳一般是采用磁盘做的,私有网卡我没见过用etherchannel的,public 网卡可以用etherchannel,像这种情况看看你etherchannel的设置或者看看oracle日志,看是哪个方面的问题!收起
系统集成 · 2013-12-24
浏览2438
myciciymyciciyIT顾问某金融科技公司
看日志吧 可能是网络心跳导致显示全部
看日志吧 可能是网络心跳导致收起
银行 · 2013-12-23
浏览2411
jiaxu2000jiaxu2000系统工程师沈阳医学院附属中心医院
我觉得还有必要看一下oracle日志显示全部
我觉得还有必要看一下oracle日志收起
事业单位 · 2013-12-23
浏览2360
xiao8577034xiao8577034系统运维工程师重庆市公安局交通巡逻警察总队
先确认AIX硬件是否异常,这种情况一般都是RAC故障引起的我遇到过类似,请先确认AIX及HACMP都正常,再修改RAC心跳相关的时间参数显示全部
先确认AIX硬件是否异常,这种情况一般都是RAC故障引起的
我遇到过类似,请先确认AIX及HACMP都正常,再修改RAC心跳相关的时间参数收起
互联网服务 · 2013-12-23
浏览2447

提问者

loukin
系统工程师联通

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2013-12-23
  • 关注会员:1 人
  • 问题浏览:11334
  • 最近回答:2014-05-11
  • X社区推广