huchenqx
作者huchenqx·2016-07-01 13:18
系统工程师·时代银通

DS3512维护记录

字数 1256阅读 3009评论 1赞 0

故障说明:某银行,一个星期前巡检的时候发现IBM DS312的主柜上有块硬盘亮故障灯了,于是用DS软件登陆发现主柜第10块盘已经坏了,主柜第1块盘成impending failed 状态,于是昨天带了2块硬盘过去配置情况说明一下:某银行里DS3512的有主柜和扩展柜,都是双控制器,双电源,主柜12块盘,扩展柜5块盘,主柜第12块盘是热备盘,扩展柜第1块备是热备盘,主柜1-11做个RAID 5,划分一个LUN,扩展柜2-5做成RAID5,划分一个LUN。

换硬盘嘛,简单啊,DS软件打开来,把坏硬盘拔下来,把好硬盘插进去,然后扩展柜的热备盘和主柜第10块盘进行数据copyback,然后半个多小时再过来看,还在copyback,这个时候已经4点多了,我也不想再等下去了,于是想偷个懒,查看整个存储的状态,都处于optimal状态,我想2块硬盘可以同时同步数据,不是还有一个热备盘吗,一会坏了,会自动顶上去的。想想的很好,可是实际根本不是这样的。

     我手动把主柜1号盘设成failed,于是,主柜的逻辑卷就成Degraded了,这下我就慌了,还想把硬盘手动调成正常,但是看看又没有这个选项,唉,偷懒害死人啊,就应该等数据同步完成以后再把1号盘设成failed啊,怎么热备盘没有顶上去啊,唉,想的太简单了,害死人啊!

   于是在旁边等着copyback完成,等完成以后,我看到整个逻辑卷变成了reconstrucation,这个时候已经5点半多了,行里要下班了,我只能等明天再来了

回家的路上,我仔细分析了一下我看到的现象。

如果我在换硬盘之前,手动把1号盘设成坏盘,那么等1号盘故障灯亮了以后,我把1号盘和10号盘都拿下来,再先插入2块好盘,这样也没有问题,数据会自动同步。(这里我想的,没有实际检验过,但是我觉得应该行)

但是我不是这么操作的,我选择了一种风险大的方式,在数据同步的时候,我把1号盘T出了逻辑卷,本来是optimal的,现在少了一块盘当然degraded(如果这个时候,有盘如果突然坏了,或者突然断电,整个逻辑卷就会failed,数据丢失,责任大了),为什么第12号热备盘没有接替1号盘,顶上来,主要还是基础知识不扎实。目前的进程中,是逻辑卷在copyback过程中,逻辑卷突然发现降级了,所以目前的工作是继续把copyback完成,完成以后,扩展柜的1号热备盘被主柜10号盘替用,这个时候,本来是要退出逻辑卷的,但是发现还缺一块盘,然后10块硬盘重新奇偶校验,把数据写到扩展柜的1号热备盘上(原来这块盘上的数据是主柜第10号的数据),所以才有后来的重建操作。重建完成,逻辑卷还会变成optimal的,

   为了验证我的想法,第2天我早上我早早来到银行,DS登陆以后,发现果然如此,主柜的第12块热备盘根本没有接入,还是扩展柜的1号热备盘在工作。于是,我把坏硬盘拔下来,好盘接入,数据开写copyback,我的维护工作完成了。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论1 条评论

thinkcthinkc系统架构师某司
2016-07-31 12:02
为什么主柜#12热备盘一直没起作用?
Ctrl+Enter 发表

作者其他文章

  • 悲惨的一个星期
    评论 12 · 赞 3
  • 我的第1台IBM小型机
    评论 14 · 赞 5
  • 相关文章

    X社区推广