刘怀行
作者刘怀行·2019-08-14 15:47
售前技术支持·河南凯姆敦克计算机有限公司

IBM DS4700存储故障案例分析

字数 2826阅读 9963评论 0赞 0

原创:河南凯姆敦克计算机有限公司 高端服务部

故障现象

近日接到客户电话,其重要业务系统的ORACLE数据库无法启动,经查发现为IBM DS4700存储故障,因故障现象比较复杂,向我公司求助。我公司在接到故障报修后迅速响应,携带公司现有备件(两块600G硬盘)赶往现场。

进场后登陆IBM DSSM管理控制台,查看故障告警如下图所示:

故障指示对应的故障硬盘和Logical Drive如下表所示:

同时查看硬盘状态如下图表所示:

SLOT硬盘大小和硬盘状态
Drive in slot 1Empty Offline
Drive in slot 2600G Hot Spare In Use Impending Drive Failure-MDAR
Drive in slot 3600G Online
Drive in slot 4600G Online
Drive in slot 5600G Online
Drive in slot 6600G Online
Drive in slot 7600G Offline
Drive in slot 8300G Online
Drive in slot 9300G Online
Drive in slot 10300G Online Bypassed Drive
Drive in slot 11300G Online 2
Drive in slot 12300G Online
Drive in slot 13300G Online
Drive in slot 14300G Online
Drive in slot 15300G Online Hot Spare
Drive in slot 16Empty

查看Array和Logical Drive信息如下图所示:

故障分析

经仔细查看存储故障日志和告警信息,查阅维护指南和故障手册,分析得出以下结论:

1、针对Array 0 Logical Drive 1,原本由Slot 3 – 8的硬盘组成,由于SLot 7 硬盘故障,由热备盘Slot 2顶替后数据同步完成,但是由于Slot 2存在impending drive failure (意味着硬盘目前可以正常使用,但已经出现损坏并在将来的未知时间出现故障),后续将其更换。

2、针对Array 1,原本由Slot 9 – 14的硬盘组成,由于Slot 10硬盘出现Bypassed Drive故障,导致Array 1出现Partially Complete Array故障,但是在Sot 15的热备盘没有顶替slot 10这点很奇怪,由于关于Array 0 Slot2的故障和重建日志过多导致关于Array 1的日志已经被清理,无法发掘更加有用的信息。

3、针对Array 0_1,此卷组大小为0MB,状态为Contingent – Prepareing for import,相当奇怪,经查发现,这种情况一般发生在硬盘故障时更换的硬盘不是全新硬盘,而且未经重新格式化,硬盘上存在原有的Array信息,虽重新加入到现有的Array中,但原有的Array信息被保留到存储配置中。经与用户沟通,暂时以恢复业务为主,不对此做处理。

故障处理

1、在故障处理之前,要对存储的配置做完全备份,保存DS4000系统的 Profile 或 All Support Data ,Profile 里面记录了所有 Array 的配置信息和主机 Mapping 的信息,在关键时刻对于客户的数据恢复有着非常重要的作用。 Profile 备份步骤:Storage Subsystem-View-Profile-All-Save as 保存配置。Support Data备份步骤:Advanced-Troubleshooting-Support Data-Collect,弹出窗口Browse...选择路径输入命名保存

2、针对Array 0的故障,需替换Slot 2的故障硬盘,在做操作之前,需将Slot 2的硬盘标记为坏盘,先选中Slot 2中的硬盘选择 Advanced-Recovery-Fail Drive将其标记即可,然后选中Slot 2中的硬盘右键选择Replace Drive更换硬盘,拔出硬盘等待30秒更换上新硬盘即可。

针对Array 1的故障,在处理时发现其将Slot 2的硬盘作为卷组的热备盘对待,由于Slot 2的热备盘已经被Array 0占用,所以Array 1出现了Partially Complete Array故障。处理时,首先取消Slot 2的热备状态,然后将Slot 15取消热备。完成后,选择Array 1,右键选择Replace Drive更换硬盘,将Slot 10的硬盘拔出,Slot 15拔出后插入Slot 10即可,Array 1自动开始重建。取消Slot 2的热备操作选中Array 1-Hot Spare Coverage...,在弹出的窗口选择 Manually unassign individual drives将其unassign 如下图所示:

4、查看Array同步和重建状态如下图所示:

两个Array数据同步和重建大概需要2-3个小时,由于此时数据库未启动,没有IO操作,可以将数据同步和重建的优先级调整到最高,加快速度,配置操作如下图所示:

5、最后在Slot 15插入600G的硬盘做全局热备盘,将Slot 7的硬盘拔掉拆除硬盘后,空盘架插入硬盘槽位保证存储通风系统正常工作。

TIPS

1、Impending drive failure分为高数据可用性风险,未分配或备用热备用,中等数据可用性风险和等待热备用四种状态,需根据告警状态,选择操作,此种故障时,由于驱动器尚未故障,所以其故障指示灯将不会亮起。所以,告知客户需加强存储系统的日常巡检,由于此存储使用已经达9年之久,建议用户更换存储系统。

2、状态为Contingent – Prepareing for import的Array,正常选中右键时无法做任何操作的,需要将存储切换到critical condition,然后尝试删除,在数据库正常启动后,与客户沟通,近期他们将会把数据迁移到新机房,此存储将淘汰下架,遂不做后续操作尝试。

3、最好不要在同一个机框内用两种不同规格容量的硬盘来创建Array和配置热备,做全局热备时无法保证对应关系。

4、空槽位要插上硬盘架,在保证存储通风系统正常工作的情况下防止异物进入存储系统内部。

5、当同时存在有Hot Spare in Use failure和Impending Drive Failure 时,首先要处理Impending Drive Failure故障。当同时存在有Hot Spare in Use failure和Drive Failure时,首先要处理Drive Failure故障。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

相关文章

相关问题

相关资料

X社区推广