某金融用户报表业务系统,IBM P750*2 HDS VSP PowerHA环境,由于批处理IO时间较长,用户新购置了一台HDS闪存阵列解决目前存储性能瓶颈问题,新存储加电上架规划配置一番后,用户识别新存储准备数据迁移等一系列的工作,就在cfgmgr扫盘时候,没反应了,发现IBM P750分区宕掉了。收集日志厂商一轮分析过后。发现一个细节被大家忽略了,导致今天的后果。
欢迎大家竞猜交流讨论,本周内公布原因.
遇到过dml版本不兼容的情况
收起有个问题哈,如果是多路径软件兼容性导致的问题,那么我用
cfgmgr -l fcsx 进行扫描,同样也会出现这种问题,只是指定具体的父设备进行扫描,减少了扫描到其它设备由于bug宕机的概率而已。那怎样才能彻底避免此种或者其他未知bug导致的风险了?
收起大家说的都是出现此类的问题的点了。这个案例好在用户当初考虑到了安全起见扫盘的是备机,没有对业务产生影响。实际原因也让我们深思,有些事情不能想当然.大家继续交流,明天公布原因
是不是cfgmgr扫描磁盘的时候,你新加的盘有点小多,导致扫描时间变长,而扫描设备会导致网络设备中断,最终触发导致HA发生切换,但又没切过去,系统guang~~~熄火了
收起由于当初用户使用的VSP 存储HDLM版本较老,不兼容新采购的HDS闪存。 导致了此次事件的发生.