目前环境为同一数据中心部署两台v7000做hyperswap双活,实施完成后做故障场景验证,在进行如下场景验证时,造成oracle 11.2.0.4 rac数据库重启
这里为方面描述,定义两台v7000分为A、B,对应节点为node1、node2、node3、node4,node1、2隶属存储A,site1;node3、4隶属存储B,site2
rac asm磁盘组为hyperswap卷,其中三个voting disk隶属情况为,votingdisk1首选节点node1,votingdisk2和votingdisk3首选节点node2
验证场景:拔掉node2后端全部光纤链路
后果:数据库异常,虚拟机正常访问
以进行排查工作:
1.多路径配置采用redhat自带DM-multipath,按照ibm官方建议配置
2.数据库参数_asm_hbeatiowait已修改为185,大于120
经过以上处理,重新验证,故障仍出现
希望各位老师帮忙分析指导!
我之前在HA架构遇到同样问题,得到的经验是RAC几个切换条件不太宽泛造成的。准确的说是DM-multipath其它node没有切换完成,RAC就开始转移导致。同一个机房linux multipath往常4秒钟就ok,跨同城很难说,所以延迟设置一定要远远大于DM-multipath时间才好。
建议先别管厂商给的理论值。亲测设备A宕机后,site 2 nodes在不刷新磁盘情况下,观察设备-卷多久能够挂载。然后适当调整RAC切换时间使其宽泛。Oracle DBA应该能理解我的描述。
出现此问题并非配置或存储有问题,只是测试场景有问题,正常情况下,多根光纤断掉的可能性会非常低,假如是因为存储控制器故障,那么作为心跳判断的网络也应该断掉,所以,你要测试,应该是直接拔掉控制器,而不是只拔掉光纤,也或者把光纤和网络同时拔掉。
另外,多路径的配置要启用alua模式,不然流量跨节点通讯会有问题。
收起