aix心跳中断导致一个节点重启

两台IBM 780小型机,上面安装了aix 6.1+oracle 11g,两个节点做 rac。两个节点之间的心跳通讯通过虚拟网卡ent13(由每个分区上不同柜子的ent9和ent11网卡聚合而成,其中两个ent9连在内部的光纤交换机上作为主线路,备用线路为通过两个ent11口直连)连接实现。故障:通过errpt查看,B节点报hba2(对应ent11口) down,然后报 ETHERCHANNEL CAN NOT FAIL OVER,A节点的数据库日志*alert.log提示通讯中断,开始倒计时,然后A节点就自动重启了

请各位帮忙分析一下?
参与32

30同行回答

tttzzz22tttzzz22QA工程师安徽合肥
回复 30# phanx     嗯显示全部
回复 30# phanx


    嗯收起
IT分销/经销 · 2014-07-25
浏览2596
tttzzz22tttzzz22QA工程师安徽合肥
回复 27# phanx     从测试的情况看,在拔出某个端口的光纤之前,在对端执行ping命令。在拔出之后,可以看到ping不通,过了一段时间之后,又通了,使用netstat -v ent13查看,此时激活的端口确实变化了,由primary变为backup或者backup变为primary操作系统层面,两端的ent13都是...显示全部
回复 27# phanx


    从测试的情况看,在拔出某个端口的光纤之前,在对端执行ping命令。在拔出之后,可以看到ping不通,过了一段时间之后,又通了,使用netstat -v ent13查看,此时激活的端口确实变化了,由primary变为backup或者backup变为primary

操作系统层面,两端的ent13都是同样的配置,做etherchannel,主端口为ent9,备用端口为ent11。ping3次,每次的超时时间是一秒,如果不通就进行切换。收起
IT分销/经销 · 2014-07-24
浏览2720
tttzzz22tttzzz22QA工程师安徽合肥
上个周末专门针对这个问题进行了排查(在数据库开启和停掉的情况下,分别拔掉心跳线的某个端口),目前可以确定的一点是,这两条备用线路基本是没有问题的,当走交换机的那条有故障,是可以切换到直连线路的。问题可能还是在oracle上面。...显示全部
上个周末专门针对这个问题进行了排查(在数据库开启和停掉的情况下,分别拔掉心跳线的某个端口),目前可以确定的一点是,这两条备用线路基本是没有问题的,当走交换机的那条有故障,是可以切换到直连线路的。问题可能还是在oracle上面。收起
IT分销/经销 · 2014-07-22
浏览2737
tttzzz22tttzzz22QA工程师安徽合肥
回复 2# phanx     高手!!! 谢谢显示全部
回复 2# phanx


    高手!!! 谢谢收起
IT分销/经销 · 2014-07-17
浏览2508
tttzzz22tttzzz22QA工程师安徽合肥
回复 2# phanx 补充一下: 10gR2/11gR1 RAC的心跳网络是这个样子,11gR2 RAC新的网络心跳是用的HAIP来实现的,不依赖OS级别的网卡Failover了,又不一样了。如果楼主的版本是11gR2的话,那么还是做RAC方案的人没有用HAIP。---------是这个版本,但是这个概念完全不懂,也没听他们实施时...显示全部
回复 2# phanx

补充一下: 10gR2/11gR1 RAC的心跳网络是这个样子,11gR2 RAC新的网络心跳是用的HAIP来实现的,不依赖OS级别的网卡Failover了,又不一样了。如果楼主的版本是11gR2的话,那么还是做RAC方案的人没有用HAIP。---------是这个版本,但是这个概念完全不懂,也没听他们实施时提到这个收起
IT分销/经销 · 2014-07-17
浏览2625
tttzzz22tttzzz22QA工程师安徽合肥
谢谢楼上各位的解答,估计这个现在动起来还挺麻烦显示全部
谢谢楼上各位的解答,估计这个现在动起来还挺麻烦收起
IT分销/经销 · 2014-07-03
浏览659
tttzzz22tttzzz22QA工程师安徽合肥
回复 2# phanx     有些明白了。也就是说这样其实备用线路并不起作用,真是网卡的备用。。。。谢谢显示全部
回复 2# phanx


    有些明白了。也就是说这样其实备用线路并不起作用,真是网卡的备用。。。。谢谢收起
IT分销/经销 · 2014-07-03
浏览625
tttzzz22tttzzz22QA工程师安徽合肥
回复 6# shshiheng     这个测试现在不好做,生产系统,不敢乱动显示全部
回复 6# shshiheng


    这个测试现在不好做,生产系统,不敢乱动收起
IT分销/经销 · 2014-07-02
浏览1321
tttzzz22tttzzz22QA工程师安徽合肥
回复 2# zp_ccc 就是分别连线以后做聚合,相当于提高可靠性吧显示全部
回复 2# zp_ccc
就是分别连线以后做聚合,相当于提高可靠性吧收起
IT分销/经销 · 2014-07-02
浏览1295
tttzzz22tttzzz22QA工程师安徽合肥
回复 3# hulu_168 都通过交换机的话,网口不够;直连听技术人员说不太建议,所以我们这边这个直连只是备用。但没想到的是,从问题来看,似乎连交换机的线路从一开始就有问题显示全部
回复 3# hulu_168
都通过交换机的话,网口不够;直连听技术人员说不太建议,所以我们这边这个直连只是备用。但没想到的是,从问题来看,似乎连交换机的线路从一开始就有问题收起
IT分销/经销 · 2014-07-02
浏览1610

    提问者

    tttzzz22
    QA工程师安徽合肥
    擅长领域: 系统运维云计算大数据

    相关问题

    相关资料

    相关文章

    问题状态

  • 发布时间:2014-07-02
  • 关注会员:2 人
  • 问题浏览:18643
  • 最近回答:2014-07-25
  • X社区推广