hyperswap双活下,oracle rac数据库宕机疑惑?

目前环境为同一数据中心部署两台v7000做hyperswap双活,实施完成后做故障场景验证,在进行如下场景验证时,造成oracle 11.2.0.4 rac数据库重启
这里为方面描述,定义两台v7000分为A、B,对应节点为node1、node2、node3、node4,node1、2隶属存储A,site1;node3、4隶属存储B,site2
rac asm磁盘组为hyperswap卷,其中三个voting disk隶属情况为,votingdisk1首选节点node1,votingdisk2和votingdisk3首选节点node2
验证场景:拔掉node2后端全部光纤链路
后果:数据库异常,虚拟机正常访问

以进行排查工作:
1.多路径配置采用redhat自带DM-multipath,按照ibm官方建议配置
2.数据库参数_asm_hbeatiowait已修改为185,大于120
经过以上处理,重新验证,故障仍出现

希望各位老师帮忙分析指导!

3回答

perry_liperry_li  产品总监 , 成都优易数据有限公司
Allen_michael1983yinxin赞同了此回答
出现此问题并非配置或存储有问题,只是测试场景有问题,正常情况下,多根光纤断掉的可能性会非常低,假如是因为存储控制器故障,那么作为心跳判断的网络也应该断掉,所以,你要测试,应该是直接拔掉控制器,而不是只拔掉光纤,也或者把光纤和网络同时拔掉。 另外,多路径的配置要启用alua模式,...显示全部

出现此问题并非配置或存储有问题,只是测试场景有问题,正常情况下,多根光纤断掉的可能性会非常低,假如是因为存储控制器故障,那么作为心跳判断的网络也应该断掉,所以,你要测试,应该是直接拔掉控制器,而不是只拔掉光纤,也或者把光纤和网络同时拔掉。

另外,多路径的配置要启用alua模式,不然流量跨节点通讯会有问题。

收起
 2019-06-19
浏览2256
  • 三点: 1.“拔掉光纤"操作,我相信用户绝对不是为了测试那几条光纤跳线的可靠性。主要是为了模拟v7k A意外宕机。这是最直接,最稳妥的测试。 2.哪怕用户就是为了考验那几条"光纤"可靠性,也是合理的。用户为这套HA架构投入所有设备至少是double的,为了就是规避各种可能性带来的停机,根据厂商“可能性会非常低”的预设,而不去验证某个点才是不合逻辑的。 3.最主要的,作为供应商或产品总监,我个人不赞同去:准确的要求用户去怎么测试,该拔掉什么,不该拔掉什么。因为任何组件,设备,都有故障风险,这是HA架构发挥价值的关键时刻。由衷的建议,让用户自由发挥测试方式。(做不到,请换下一个供应商)
    2019-06-19
EndlessRainEndlessRain  其它 , 网吧经验丰富的网管
wzplyinxin赞同了此回答
我之前在HA架构遇到同样问题,得到的经验是RAC几个切换条件不太宽泛造成的。准确的说是DM-multipath其它node没有切换完成,RAC就开始转移导致。同一个机房linux multipath往常4秒钟就ok,跨同城很难说,所以延迟设置一定要远远大于DM-multipath时间才好。建议先别管厂商给的理论...显示全部

我之前在HA架构遇到同样问题,得到的经验是RAC几个切换条件不太宽泛造成的。准确的说是DM-multipath其它node没有切换完成,RAC就开始转移导致。同一个机房linux multipath往常4秒钟就ok,跨同城很难说,所以延迟设置一定要远远大于DM-multipath时间才好。
建议先别管厂商给的理论值。亲测设备A宕机后,site 2 nodes在不刷新磁盘情况下,观察设备-卷多久能够挂载。然后适当调整RAC切换时间使其宽泛。Oracle DBA应该能理解我的描述。

收起
 2019-06-19
浏览2142
lutherandrewlutherandrew  研发工程师 , 中铁信息工程集团
yinxin赞同了此回答
我们这边生产环境,svc 4node 2site外挂两个盘柜。做了hyperswap。aix 7.1 11.2.0.4rac。故障测试,依次断开任意3个node.断开任意盘柜。磁盘io会hang5秒。rac均稳定运行。显示全部

我们这边生产环境,svc 4node 2site外挂两个盘柜。做了hyperswap。aix 7.1 11.2.0.4rac。故障测试,依次断开任意3个node.断开任意盘柜。磁盘io会hang5秒。rac均稳定运行。

收起
 2019-06-19
浏览2081

提问者

goldenstaryuan系统工程师, hmbank

问题状态

  • 发布时间:2019-06-18
  • 关注会员:4 人
  • 问题浏览:4519
  • 最近回答:2019-06-19