hackergod
作者hackergod·2015-11-06 15:31
数据库管理员·ECT

网络故障对DB2高可用有什么影响?

字数 2534阅读 2983评论 4赞 1

      最近在评估网络故障(主备交换机切换)对DB2 pureScale,HA,pureScale+HADR,HA+HADR的影响。咨询过一些专业人士,也翻了不少资料,略有些心得体会,记录下来,望更专业人士能指点一二。

       首先要判断双网卡绑定使用的模式,是主备策略,还是Balance?我的理解是主备模式下,由主交换机切换到备交换机,存在一定的可能不是无缝切换,会出现网络中断。但是还没测试过,所以只是猜想。而Balance模式就可以认为是无缝切换,即网络没有中断了吧?(谁来帮我确认)。接下来就是DB2的配置了。

       DB2高可用实现的一个关键技术就是heartbeat,节点间、集群间通过hearbeat判断状态是否正常。

Linux上可以通过lscomg命令的输出来计算heartbeat值。

Name Sensitivity Period Priority Broadcast SourceRoutingNIMPathName NIMParameters Grace MediaType UseForNodeMembership

CG1 4          0.8    1       Yes      Yes                                    60    1 (IP)    1

CG2 4          0.8    1       Yes      Yes                                    60   1 (IP)    1

CG3 4          0.8    1       Yes      Yes                                    60    1 (IP)    1

CG4 4          0.8    1       Yes      Yes                                    60    1 (IP)    1

heartbeat value= 4*(0.8*2)= 6.4Sec

因此如果网络中断时间小于6.4秒,对pureScale或HA应该没影响。如果大于6.4,pureScale则会仲裁一个节点发生故障,将其踢出集群?(这点不太清楚);HA的primary节点挂掉,standby节点激活。

而HADR的故障检测依赖HADR_TIMEOUT,而这个值一般设置较大,所以不受影响。

以上猜想未经测试验证,因此只局限于猜测,具体结论等测试结果出来再补上。当然如果有同行遇到过类似场景,强烈欢迎指导!

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

1

添加新评论4 条评论

hackergodhackergod数据库管理员ECT
2015-11-09 15:32

李英杰: 交换机的Balance模式我认为不是无缝切换,影响的为通过发生故障的交换机的连接。对HADR的影响要看HADR采用的是什么模式,异步模式或者近似同步是不受影响的。pureSca

嗯,目前从理论层面表明是不会有问题
hackergodhackergod数据库管理员ECT
2015-11-09 15:30
补充:
Whenever a node loses connection with rest of the cluster nodes, the RSCT Topology Services subsystem will issue an ICMP echo to check whetherthe system is still reachable. If that node responds within the timeperiod set by Ping Grace Period, the cluster will not detect this as a node failure. Note that Ping Grace Period is not really meant for network glitches, but for cases where daemons get blocked because of memory starvation or other factors. We et this value to 30 seconds in both of our cluster topologies。一篇文章中对节点故障检测机制作了补充,发现节点间通信异常时,RSCT会发起Ping,持续时间为30秒,这么看来一个节点的故障时间只有大于heartbeat+30Sec,才会被认为挂了。
李英杰李英杰数据库技术专家烁林软件
2015-11-09 14:45
交换机的Balance模式我认为不是无缝切换,影响的为通过发生故障的交换机的连接。对HADR的影响要看HADR采用的是什么模式,异步模式或者近似同步是不受影响的。pureScale不太熟悉,但我目前了解的,好像不会有什么影响。

又仔细看了下题目,如果是双网卡绑定的情况下,应该都不受影响
hackergodhackergod数据库管理员ECT
2015-11-06 16:12
查看使用的模式及网卡信息使用命令 #cat /proc/net/bonding/bond0
Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广