最近在评估网络故障(主备交换机切换)对DB2 pureScale,HA,pureScale+HADR,HA+HADR的影响。咨询过一些专业人士,也翻了不少资料,略有些心得体会,记录下来,望更专业人士能指点一二。
首先要判断双网卡绑定使用的模式,是主备策略,还是Balance?我的理解是主备模式下,由主交换机切换到备交换机,存在一定的可能不是无缝切换,会出现网络中断。但是还没测试过,所以只是猜想。而Balance模式就可以认为是无缝切换,即网络没有中断了吧?(谁来帮我确认)。接下来就是DB2的配置了。
DB2高可用实现的一个关键技术就是heartbeat,节点间、集群间通过hearbeat判断状态是否正常。
Linux上可以通过lscomg命令的输出来计算heartbeat值。
Name Sensitivity Period Priority Broadcast SourceRoutingNIMPathName NIMParameters Grace MediaType UseForNodeMembership
CG1 4 0.8 1 Yes Yes 60 1 (IP) 1
CG2 4 0.8 1 Yes Yes 60 1 (IP) 1
CG3 4 0.8 1 Yes Yes 60 1 (IP) 1
CG4 4 0.8 1 Yes Yes 60 1 (IP) 1
heartbeat value= 4*(0.8*2)= 6.4Sec
因此如果网络中断时间小于6.4秒,对pureScale或HA应该没影响。如果大于6.4,pureScale则会仲裁一个节点发生故障,将其踢出集群?(这点不太清楚);HA的primary节点挂掉,standby节点激活。
而HADR的故障检测依赖HADR_TIMEOUT,而这个值一般设置较大,所以不受影响。
以上猜想未经测试验证,因此只局限于猜测,具体结论等测试结果出来再补上。当然如果有同行遇到过类似场景,强烈欢迎指导!
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞1
添加新评论4 条评论
2015-11-09 15:32
2015-11-09 15:30
Whenever a node loses connection with rest of the cluster nodes, the RSCT Topology Services subsystem will issue an ICMP echo to check whetherthe system is still reachable. If that node responds within the timeperiod set by Ping Grace Period, the cluster will not detect this as a node failure. Note that Ping Grace Period is not really meant for network glitches, but for cases where daemons get blocked because of memory starvation or other factors. We et this value to 30 seconds in both of our cluster topologies。一篇文章中对节点故障检测机制作了补充,发现节点间通信异常时,RSCT会发起Ping,持续时间为30秒,这么看来一个节点的故障时间只有大于heartbeat+30Sec,才会被认为挂了。
2015-11-09 14:45
又仔细看了下题目,如果是双网卡绑定的情况下,应该都不受影响
2015-11-06 16:12