银行Oracle 11g hyperswap 数据库宕机 Oracle集群 IBM storwize v7000

hyperswap双活下，oracle rac数据库宕机疑惑？

目前环境为同一数据中心部署两台v7000做hyperswap双活，实施完成后做故障场景验证，在进行如下场景验证时，造成oracle 11.2.0.4 rac数据库重启
这里为方面描述，定义两台v7000分为A、B，对应节点为node1、node2、node3、node4，node1、2隶属存储A，site1；node3、4隶属存储B，site2
rac asm磁盘组为hyperswap卷，其中三个voting disk隶属情况为，votingdisk1首选节点node1，votingdisk2和votingdisk3首选节点node2
验证场景：拔掉node2后端全部光纤链路
后果：数据库异常，虚拟机正常访问

以进行排查工作：
1.多路径配置采用redhat自带DM-multipath，按照ibm官方建议配置
2.数据库参数_asm_hbeatiowait已修改为185，大于120
经过以上处理，重新验证，故障仍出现

希望各位老师帮忙分析指导！

关注4

参与17

3同行回答
全部行业
全部行业 互联网服务 系统集成 IT其它
|
按赞同排序
按时间排序

EndlessRain（网吧资深的网管）网吧

我之前在HA架构遇到同样问题，得到的经验是RAC几个切换条件不太宽泛造成的。准确的说是DM-multipath其它node没有切换完成，RAC就开始转移导致。同一个机房linux multipath往常4秒钟就ok，跨同城很难说，所以延迟设置一定要远远大于DM-multipath时间才好。
建议先别管厂商给的理论值。亲测设备A宕机后，site 2 nodes在不刷新磁盘情况下，观察设备-卷多久能够挂载。然后适当调整RAC切换时间使其宽泛。Oracle DBA应该能理解我的描述。

收起

IT其它 · 2019-06-19

查看赞同的人

perry_li产品总监成都优易数据有限公司

出现此问题并非配置或存储有问题，只是测试场景有问题，正常情况下，多根光纤断掉的可能性会非常低，假如是因为存储控制器故障，那么作为心跳判断的网络也应该断掉，所以，你要测试，应该是直接拔掉控制器，而不是只拔掉光纤，也或者把光纤和网络同时拔掉。

另外，多路径的配置要启用alua模式，不然流量跨节点通讯会有问题。

收起

互联网服务 · 2019-06-19

查看赞同的人

EndlessRain
三点： 1.“拔掉光纤"操作，我相信用户绝对不是为了测试那几条光纤跳线的可靠性。主要是为了模拟v7k A意外宕机。这是最直接，最稳妥的测试。 2.哪怕用户就是为了考验那几条"光纤"可靠性，也是合理的。用户为这套HA架构投入所有设备至少是double的，为了就是规避各种可能性带来的停机，根据厂商“可能性会非常低”的预设，而不去验证某个点才是不合逻辑的。 3.最主要的，作为供应商或产品总监，我个人不赞同去：准确的要求用户去怎么测试，该拔掉什么，不该拔掉什么。因为任何组件，设备，都有故障风险，这是HA架构发挥价值的关键时刻。由衷的建议，让用户自由发挥测试方式。(做不到，请换下一个供应商)
2019-06-19
赞同2
评论

添加评论

lutherandrew研发工程师中铁信息工程集团

我们这边生产环境，svc 4node 2site外挂两个盘柜。做了hyperswap。aix 7.1 11.2.0.4rac。故障测试，依次断开任意3个node.断开任意盘柜。磁盘io会hang5秒。rac均稳定运行。

收起

系统集成 · 2019-06-19

查看赞同的人

hyperswap双活下，oracle rac数据库宕机疑惑？

3同行回答
全部行业
全部行业 互联网服务 系统集成 IT其它
|
按赞同排序
按时间排序

提问者

问题来自

相关问题

相关资料

相关文章

问题状态

hyperswap双活下，oracle rac数据库宕机疑惑？

3同行回答全部行业全部行业互联网服务系统集成IT其它|按赞同排序按时间排序

提问者

问题来自

相关问题

相关资料

相关文章

问题状态

3同行回答
全部行业
全部行业互联网服务系统集成 IT其它
|
按赞同排序
按时间排序