aix心跳中断导致一个节点重启

两台IBM 780小型机,上面安装了aix 6.1+oracle 11g,两个节点做 rac。两个节点之间的心跳通讯通过虚拟网卡ent13(由每个分区上不同柜子的ent9和ent11网卡聚合而成,其中两个ent9连在内部的光纤交换机上作为主线路,备用线路为通过两个ent11口直连)连接实现。故障:通过errpt查看,B节点...显示全部
两台IBM 780小型机,上面安装了aix 6.1+oracle 11g,两个节点做 rac。两个节点之间的心跳通讯通过虚拟网卡ent13(由每个分区上不同柜子的ent9和ent11网卡聚合而成,其中两个ent9连在内部的光纤交换机上作为主线路,备用线路为通过两个ent11口直连)连接实现。故障:通过errpt查看,B节点报hba2(对应ent11口) down,然后报 ETHERCHANNEL CAN NOT FAIL OVER,A节点的数据库日志*alert.log提示通讯中断,开始倒计时,然后A节点就自动重启了

请各位帮忙分析一下?收起
参与32

查看其它 29 个回答phanx的回答

phanxphanx系统工程师银行
回复 26# tttzzz22


    建议看看两台机器的 lsattr -El ent13 是怎么配置的。

我觉得是直连链路断掉,可以切换到交换机的链路上。   交换机的链路断掉,无法切到直连的链路上。     因为直连链路断掉,双方都可以感知端口down了,这样两个节点都会有failover动作。流量就全部切到交换机的那条链路上了。

但是当交换机链路断掉一个节点的时候,另外一个节点由于连接的交换机端口并不会down,所以,只有一个节点会Failover。 这样就会形成图上,收发报文不一致的情况了。
银行 · 2014-07-22
浏览2672

回答者

phanx
系统工程师银行
擅长领域: 服务器数据库AIX

phanx 最近回答过的问题

回答状态

  • 发布时间:2014-07-22
  • 关注会员:2 人
  • 回答浏览:2672
  • X社区推广