myciciy
作者myciciy·2016-12-01 14:51
IT顾问·某金融科技公司

案例2 经典的双机双存储,某晚主存储异常故障,业务立刻中断

字数 576阅读 4266评论 1赞 1

案例2 经典的双机双存储,某晚主存储异常故障,业务立刻中断

用户经典的双机双存储高可用应用方案。IBM 2*P570 PowerHA6.1 两台中端存储通过lvm mirror实现的数据镜像,上面跑着用户信贷系统,报表系统,存储压力较为繁忙。用户每年都会完成一次HA切换演练保证业务高可用。某晚一次存储电源故障,电源还没来得急更换,另外一个电源也坏了。这样主存储宕机了。恰巧这个时候业务也立刻停止了,用户电话里说刚做完的Powerha的演练,很顺利。可今天发生的这事却百思不得其解。

后来经过大量的日志和与用户交流得知,用户之前的一个操作给这次的业务中断埋下了一个大大的”地雷”.

究竟用户自己做的什么操作导致的此次事件呢

用户业务系统有一个文件系统存储空间不够了,需要扩容,但是目前共享vg里的空间无法满了,需要重新加新的磁盘到vg里,存储管理员分配新的磁盘给两台主机,然后用户通过Powerha cspoc去加盘,扩容FS。就是这么一个操作导致的问题发生。
lvm mirror双存储的情况下,我们扩fs需要注意先扩LV,再扩fs 这样能保证数据正确分布在2个存储上,如果在用户这种场景新加磁盘后直接扩fs,那就会造成数据拷贝是2份,但是不能准确地保证分布在两个存储上,有可能存储A分布90% 存储B分布110%。这样一台存储故障,就会直接导致数据的不完整。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

1

添加新评论1 条评论

hebhndhebhnd工程师集成
2017-03-09 13:37
为什么chlv就能均匀的分布到2个存储的盘上,而直接扩文件系统不能呢?
Ctrl+Enter 发表

本文隶属于专栏

AIX系统故障案例集锦
IBM Power AIX PowerHA PowerVM PowerVC IBM flashsystem SVC Storage 等相关技术案例

作者其他文章

X社区推广