aix心跳中断导致一个节点重启

两台IBM 780小型机,上面安装了aix 6.1+oracle 11g,两个节点做 rac。两个节点之间的心跳通讯通过虚拟网卡ent13(由每个分区上不同柜子的ent9和ent11网卡聚合而成,其中两个ent9连在内部的光纤交换机上作为主线路,备用线路为通过两个ent11口直连)连接实现。故障:通过errpt查看,B节点报hba2(对应ent11口) down,然后报 ETHERCHANNEL CAN NOT FAIL OVER,A节点的数据库日志*alert.log提示通讯中断,开始倒计时,然后A节点就自动重启了

请各位帮忙分析一下?
参与32

30同行回答

tttzzz22tttzzz22QA工程师安徽合肥
回复 6# shshiheng     这个测试现在不好做,生产系统,不敢乱动显示全部
回复 6# shshiheng


    这个测试现在不好做,生产系统,不敢乱动收起
IT分销/经销 · 2014-07-02
浏览1320
tttzzz22tttzzz22QA工程师安徽合肥
回复 2# zp_ccc 就是分别连线以后做聚合,相当于提高可靠性吧显示全部
回复 2# zp_ccc
就是分别连线以后做聚合,相当于提高可靠性吧收起
IT分销/经销 · 2014-07-02
浏览1294
dhl999027dhl999027系统架构师北京华胜天成科技股份有限公司
ent11直连 ent9down了 应该不会切到备链路上显示全部
ent11直连 ent9down了 应该不会切到备链路上收起
系统集成 · 2014-07-02
浏览1287
tttzzz22tttzzz22QA工程师安徽合肥
回复 3# hulu_168 都通过交换机的话,网口不够;直连听技术人员说不太建议,所以我们这边这个直连只是备用。但没想到的是,从问题来看,似乎连交换机的线路从一开始就有问题显示全部
回复 3# hulu_168
都通过交换机的话,网口不够;直连听技术人员说不太建议,所以我们这边这个直连只是备用。但没想到的是,从问题来看,似乎连交换机的线路从一开始就有问题收起
IT分销/经销 · 2014-07-02
浏览1609
shshihengshshiheng系统运维工程师北京
主线路没启作用,ent11 down掉以后,心跳检测失败,rac的机制会自动重启一台主机。把ent11连接另外的交换机上,把ent11 down掉,再测试一下。显示全部
主线路没启作用,ent11 down掉以后,心跳检测失败,rac的机制会自动重启一台主机。把ent11连接另外的交换机上,把ent11 down掉,再测试一下。收起
银行 · 2014-07-02
浏览1274
jiaxu2000jiaxu2000系统工程师沈阳医学院附属中心医院
rac就是这样的,为了保持数据的一致性,如果无法确认节点是否正常,就会强制关闭一个节点存储、网络、心跳等的中断都会造成,恢复就好了显示全部
rac就是这样的,为了保持数据的一致性,如果无法确认节点是否正常,就会强制关闭一个节点

存储、网络、心跳等的中断都会造成,恢复就好了收起
事业单位 · 2014-07-02
浏览1285
meisanxxmeisanxxIT顾问v-simtone
灰常明显的脑裂表现显示全部
灰常明显的脑裂表现收起
互联网服务 · 2014-07-02
浏览1245
hulu_168hulu_168系统工程师某旅游公司
网卡绑定主备模式,为什么要一块网卡连交换机,但另一块网卡却直连。直连网卡切换肯定会失败。RAC心跳断了,从节点系统会自动重启。显示全部
网卡绑定主备模式,为什么要一块网卡连交换机,但另一块网卡却直连。直连网卡切换肯定会失败。
RAC心跳断了,从节点系统会自动重启。收起
IT其它 · 2014-07-02
浏览1289
zp_ccczp_ccc高级技术主管国内某金融科技公司
其中两个ent9连在内部的光纤交换机上作为主线路,备用线路为通过两个ent11口直连???讲的详细一些,感觉有点问题显示全部
其中两个ent9连在内部的光纤交换机上作为主线路,备用线路为通过两个ent11口直连???
讲的详细一些,感觉有点问题收起
互联网服务 · 2014-07-02
浏览1276
phanxphanx系统工程师银行
回复 1# tttzzz22     你想啊,其中一个节点网口ent9 down掉以后,ent13的Active member变成了eth11,数据从ent11往外发送,但是对端节点 ent9是好的,所以仍然是ent9作为Active Member在接收数据。但ent11是网线直连的,怎么可能收到从节点1的ent11到节点2的ent9的数据包...显示全部
回复 1# tttzzz22

rac.png




    你想啊,其中一个节点网口ent9 down掉以后,ent13的Active member变成了eth11,数据从ent11往外发送,但是对端节点 ent9是好的,所以仍然是ent9作为Active Member在接收数据。但ent11是网线直连的,怎么可能收到从节点1的ent11到节点2的ent9的数据包呢?  这个必须通过交换机,让两个节点的ent9和ent11 这四个口子在同一个VLAN下才能够做到啊。

这次生产故障完全应该由负责实施部署RAC的人负责。 什么技术人员说“不太建议”,完全是不负责任,或者是该技术人员也没有弄清楚RAC对于心跳网络Failover的机制,这种依赖OS的网卡Failover方案,必须通过交换机。


系统上线前没做故障测试吧,做了的话肯定不会这样。

补充一下: 10gR2/11gR1 RAC的心跳网络是这个样子,11gR2 RAC新的网络心跳是用的HAIP来实现的,不依赖OS级别的网卡Failover了,又不一样了。如果楼主的版本是11gR2的话,那么还是做RAC方案的人没有用HAIP。收起
银行 · 2014-07-02
浏览1526

提问者

tttzzz22
QA工程师安徽合肥
擅长领域: 系统运维云计算大数据

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2014-07-02
  • 关注会员:2 人
  • 问题浏览:18635
  • 最近回答:2014-07-25
  • X社区推广