银行hacmp

关于HA

主机为p740两台,aix版本7.1,hacmp版本6.1,通过lp分区用hacmp技术做双机互备。部分情况下因单机故障导致不能切换,如主机供电原因导致的主机直接宕机,请问可能是什么原因,如何解决?

参与18

2同行回答

mzhang76mzhang76  其它 , 原杭州杭港地铁有限公司
对于 HACMP 集群来说,至少需要 2 个心跳网络来保证心跳网络的冗余,而且更进一步,至少需要 2 种不同类型的心跳网络保证更高的可靠性,比如,一个 IP 网络心跳,一个磁盘心跳。之所以对心跳网络可靠性有如此高的要求,除了心跳网络的重要作用以外,还有更重要的原因:如果 2 个节点间心跳...显示全部


对于 HACMP 集群来说,至少需要 2 个心跳网络来保证心跳网络的冗余,而且更进一步,至少需要 2 种不同类型的心跳网络保证更高的可靠性,比如,一个 IP 网络心跳,一个磁盘心跳。之所以对心跳网络可靠性有如此高的要求,除了心跳网络的重要作用以外,还有更重要的原因:如果 2 个节点间心跳通信完全中断后,他们都会认为对方已经宕机,然后都在本地启动应用,并同时去争抢磁盘资源,有可能导致数据出现风险,即所谓的 split-brain 事件。所以 HACMP 包括其他的 HA 的集群应用都有一个很重要的前提,就是要求在任何时刻至少存在一个可用的心跳网络在节点间传递信息。

收起
轨道交通 · 2016-07-20
浏览2355
wangqlwangql  系统工程师 , NULL
先说下能切的:1. 网络故障,如网卡,网线等。交换机等故障,在非ip心跳配置且正常的情况也可以切。前提网络冗余。2. 节点故障。指的是主机宕掉,类似执行halt -q命令关机。 不能切的:1. 正常shutdown是不切的2. 磁盘组被锁住也切不了3. 应用hang死,且没配monitor的,也不切综上,做测试...显示全部

先说下能切的:

1. 网络故障,如网卡,网线等。交换机等故障,在非ip心跳配置且正常的情况也可以切。前提网络冗余。

2. 节点故障。指的是主机宕掉,类似执行halt -q命令关机。

不能切的:

1. 正常shutdown是不切的

2. 磁盘组被锁住也切不了

3. 应用hang死,且没配monitor的,也不切


综上,做测试吧,先切换测试,再故障测试,逐步排查找问题

收起
IT咨询服务 · 2016-07-20
浏览2023

提问者

hecter
系统运维工程师SD
擅长领域: 存储数据同步数据一致性

相关资料

问题状态

  • 发布时间:2016-07-20
  • 关注会员:3 人
  • 问题浏览:3544
  • 最近回答:2016-07-20
  • X社区推广