原创:河南凯姆敦克计算机有限公司 高端服务部
故障现象
近日接到客户电话,其重要业务系统的ORACLE数据库无法启动,经查发现为IBM DS4700存储故障,因故障现象比较复杂,向我公司求助。我公司在接到故障报修后迅速响应,携带公司现有备件(两块600G硬盘)赶往现场。
进场后登陆IBM DSSM管理控制台,查看故障告警如下图所示:
故障指示对应的故障硬盘和Logical Drive如下表所示:
SLOT | 硬盘大小和硬盘状态 |
Drive in slot 1 | Empty Offline |
Drive in slot 2 | 600G Hot Spare In Use Impending Drive Failure-MDAR |
Drive in slot 3 | 600G Online |
Drive in slot 4 | 600G Online |
Drive in slot 5 | 600G Online |
Drive in slot 6 | 600G Online |
Drive in slot 7 | 600G Offline |
Drive in slot 8 | 300G Online |
Drive in slot 9 | 300G Online |
Drive in slot 10 | 300G Online Bypassed Drive |
Drive in slot 11 | 300G Online 2 |
Drive in slot 12 | 300G Online |
Drive in slot 13 | 300G Online |
Drive in slot 14 | 300G Online |
Drive in slot 15 | 300G Online Hot Spare |
Drive in slot 16 | Empty |
查看Array和Logical Drive信息如下图所示:
故障分析
经仔细查看存储故障日志和告警信息,查阅维护指南和故障手册,分析得出以下结论:
1、针对Array 0 Logical Drive 1,原本由Slot 3 – 8的硬盘组成,由于SLot 7 硬盘故障,由热备盘Slot 2顶替后数据同步完成,但是由于Slot 2存在impending drive failure (意味着硬盘目前可以正常使用,但已经出现损坏并在将来的未知时间出现故障),后续将其更换。
2、针对Array 1,原本由Slot 9 – 14的硬盘组成,由于Slot 10硬盘出现Bypassed Drive故障,导致Array 1出现Partially Complete Array故障,但是在Sot 15的热备盘没有顶替slot 10这点很奇怪,由于关于Array 0 Slot2的故障和重建日志过多导致关于Array 1的日志已经被清理,无法发掘更加有用的信息。
3、针对Array 0_1,此卷组大小为0MB,状态为Contingent – Prepareing for import,相当奇怪,经查发现,这种情况一般发生在硬盘故障时更换的硬盘不是全新硬盘,而且未经重新格式化,硬盘上存在原有的Array信息,虽重新加入到现有的Array中,但原有的Array信息被保留到存储配置中。经与用户沟通,暂时以恢复业务为主,不对此做处理。
故障处理
1、在故障处理之前,要对存储的配置做完全备份,保存DS4000系统的 Profile 或 All Support Data ,Profile 里面记录了所有 Array 的配置信息和主机 Mapping 的信息,在关键时刻对于客户的数据恢复有着非常重要的作用。 Profile 备份步骤:Storage Subsystem-View-Profile-All-Save as 保存配置。Support Data备份步骤:Advanced-Troubleshooting-Support Data-Collect,弹出窗口Browse...选择路径输入命名保存
2、针对Array 0的故障,需替换Slot 2的故障硬盘,在做操作之前,需将Slot 2的硬盘标记为坏盘,先选中Slot 2中的硬盘选择 Advanced-Recovery-Fail Drive将其标记即可,然后选中Slot 2中的硬盘右键选择Replace Drive更换硬盘,拔出硬盘等待30秒更换上新硬盘即可。
针对Array 1的故障,在处理时发现其将Slot 2的硬盘作为卷组的热备盘对待,由于Slot 2的热备盘已经被Array 0占用,所以Array 1出现了Partially Complete Array故障。处理时,首先取消Slot 2的热备状态,然后将Slot 15取消热备。完成后,选择Array 1,右键选择Replace Drive更换硬盘,将Slot 10的硬盘拔出,Slot 15拔出后插入Slot 10即可,Array 1自动开始重建。取消Slot 2的热备操作选中Array 1-Hot Spare Coverage...,在弹出的窗口选择 Manually unassign individual drives将其unassign 如下图所示:
4、查看Array同步和重建状态如下图所示:
两个Array数据同步和重建大概需要2-3个小时,由于此时数据库未启动,没有IO操作,可以将数据同步和重建的优先级调整到最高,加快速度,配置操作如下图所示:
5、最后在Slot 15插入600G的硬盘做全局热备盘,将Slot 7的硬盘拔掉拆除硬盘后,空盘架插入硬盘槽位保证存储通风系统正常工作。
TIPS
1、Impending drive failure分为高数据可用性风险,未分配或备用热备用,中等数据可用性风险和等待热备用四种状态,需根据告警状态,选择操作,此种故障时,由于驱动器尚未故障,所以其故障指示灯将不会亮起。所以,告知客户需加强存储系统的日常巡检,由于此存储使用已经达9年之久,建议用户更换存储系统。
2、状态为Contingent – Prepareing for import的Array,正常选中右键时无法做任何操作的,需要将存储切换到critical condition,然后尝试删除,在数据库正常启动后,与客户沟通,近期他们将会把数据迁移到新机房,此存储将淘汰下架,遂不做后续操作尝试。
3、最好不要在同一个机框内用两种不同规格容量的硬盘来创建Array和配置热备,做全局热备时无法保证对应关系。
4、空槽位要插上硬盘架,在保证存储通风系统正常工作的情况下防止异物进入存储系统内部。
5、当同时存在有Hot Spare in Use failure和Impending Drive Failure 时,首先要处理Impending Drive Failure故障。当同时存在有Hot Spare in Use failure和Drive Failure时,首先要处理Drive Failure故障。
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞0
添加新评论0 条评论