北亚的小兔兔
作者北亚的小兔兔·2018-04-08 16:00
其它·北亚企安科技有限公司

EMC FC AX-4存储两块硬盘离线怎么恢复数据?

字数 1146阅读 891评论 1赞 3

服务器故障描述:
山西某公司一台服务器的EMC FC AX-4存储RAID5磁盘阵列,阵列中共有12块硬盘组成raid5磁盘阵列其中有两块硬盘为热备盘,阵列中硬盘单盘容量为1TB,服务器中有两块硬盘离线,一块热备盘未启用。客户将服务器中所有磁盘带到数据恢复公司。
通常情况下造成服务器硬盘离线的原因为磁盘物理故障或者硬盘坏道。但是由于EMC控制器有着十分严格的磁盘检查策略,容易将性能不稳定的硬盘判定为硬件故障提出raid组,所以导致服务器崩溃的原因也有可能是磁盘读写不稳定。

服务器数据恢复解决过程:
第一步:检测硬盘和服务器数据备份;对服务器中所有磁盘进行物理故障检测,硬盘没有物理故障,然后使用坏道检测工具进行硬盘坏道排查也一切正常。使用专业镜像工具将raid中所有磁盘做全盘镜像。如下图:
服务器EMC存储崩溃raid离线恢复数据方法.jpg

服务器EMC存储崩溃raid离线恢复数据方法.jpg

第二步:分析RAID组结构;Raid数据恢复的常规步骤先要对服务器raid信息进行分析,然后重构raid组。在本案例中分析发现作为热备盘的6号盘和9号盘全部无数据,6号盘已经成功激活并替换了磁盘阵列中的5号硬盘,但数据并未同步。继续对该服务器raid中的其他硬盘进行条带大小、数据的分布规律、磁盘顺序等必要信息进行分析。分析发现7号硬盘在同一条带上的数据与该raid中其他硬盘不同,初步确认该盘为掉线较早的硬盘,使用数据恢复公司自用的raid校验程序对此条带进行校验发现最好的数据就是除去7号盘以后的数据,所以7号盘为先掉线盘无疑。将分析出来的上述信息通过北亚自主研发的raid虚拟程序组建出原raid磁盘阵列。

第三步:对服务器磁盘阵列中的LUN信息进行分析;该服务器底层只分配了一个LUN,所以工作量相对小很多,只需对一个lun的信息进行分析,分析后使用raid恢复程序记性解释map数据并导出。然后使用自用软件进行zfs文件系统解释,某些文件系统文件在解析时报错。工程师只好手动对程序做debug调试后发现报错原因为服务器突然瘫痪导致某些元文件损坏,现有程序无法正常解释。因此需要对这些损坏的文件系统元文件做修复,才能正常解析ZFS文件系统。分析损坏的元文件发现,因当初ZFS文件正在进行IO操作的同时存储瘫痪,导致部分文件系统元文件没有更新以及损坏。人工对这些损坏的元文件进行手工修复,保证ZFS文件系统能够正常解析。

第四步:导出所有成功恢复数据;利用程序对修复好的ZFS文件系统做解析,解析所有文件节点及目录结构。对所有成功恢复的数据进行验证,数据完整。部分文件目录和验证截图如下:

服务器EMC存储崩溃raid离线恢复数据方法2.jpg

服务器EMC存储崩溃raid离线恢复数据方法2.jpg

服务器EMC存储崩溃raid离线恢复数据方法3.jpg
服务器EMC存储崩溃raid离线恢复数据方法3.jpg

服务器EMC存储崩溃raid离线恢复数据方法4.jpg
服务器EMC存储崩溃raid离线恢复数据方法4.jpg

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

3

添加新评论1 条评论

wuwenpinwuwenpin软件开发工程师南京
2018-04-08 18:50
很赞,学习学习
Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广