hyperswap双活下,oracle rac数据库宕机疑惑?

目前环境为同一数据中心部署两台v7000做hyperswap双活,实施完成后做故障场景验证,在进行如下场景验证时,造成oracle 11.2.0.4 rac数据库重启这里为方面描述,定义两台v7000分为A、B,对应节点为node1、node2、node3、node4,node1、2隶属存储A,site1;node3、4隶属存储B,site2rac asm...显示全部

目前环境为同一数据中心部署两台v7000做hyperswap双活,实施完成后做故障场景验证,在进行如下场景验证时,造成oracle 11.2.0.4 rac数据库重启
这里为方面描述,定义两台v7000分为A、B,对应节点为node1、node2、node3、node4,node1、2隶属存储A,site1;node3、4隶属存储B,site2
rac asm磁盘组为hyperswap卷,其中三个voting disk隶属情况为,votingdisk1首选节点node1,votingdisk2和votingdisk3首选节点node2
验证场景:拔掉node2后端全部光纤链路
后果:数据库异常,虚拟机正常访问

以进行排查工作:
1.多路径配置采用redhat自带DM-multipath,按照ibm官方建议配置
2.数据库参数_asm_hbeatiowait已修改为185,大于120
经过以上处理,重新验证,故障仍出现

希望各位老师帮忙分析指导!

收起
参与17

查看其它 2 个回答perry_li的回答

perry_liperry_li  产品总监 , 成都优易数据有限公司

出现此问题并非配置或存储有问题,只是测试场景有问题,正常情况下,多根光纤断掉的可能性会非常低,假如是因为存储控制器故障,那么作为心跳判断的网络也应该断掉,所以,你要测试,应该是直接拔掉控制器,而不是只拔掉光纤,也或者把光纤和网络同时拔掉。

另外,多路径的配置要启用alua模式,不然流量跨节点通讯会有问题。

互联网服务 · 2019-06-19
浏览4738
  • 三点: 1.“拔掉光纤"操作,我相信用户绝对不是为了测试那几条光纤跳线的可靠性。主要是为了模拟v7k A意外宕机。这是最直接,最稳妥的测试。 2.哪怕用户就是为了考验那几条"光纤"可靠性,也是合理的。用户为这套HA架构投入所有设备至少是double的,为了就是规避各种可能性带来的停机,根据厂商“可能性会非常低”的预设,而不去验证某个点才是不合逻辑的。 3.最主要的,作为供应商或产品总监,我个人不赞同去:准确的要求用户去怎么测试,该拔掉什么,不该拔掉什么。因为任何组件,设备,都有故障风险,这是HA架构发挥价值的关键时刻。由衷的建议,让用户自由发挥测试方式。(做不到,请换下一个供应商)
    2019-06-19

回答者

perry_li
产品总监成都优易数据有限公司
擅长领域: 存储软件定义存储服务器

perry_li 最近回答过的问题

回答状态

  • 发布时间:2019-06-19
  • 关注会员:4 人
  • 回答浏览:4738
  • X社区推广