twt运营
作者twt运营联盟成员·2016-11-17 09:41
软件开发工程师·twt

一次棘手的rootvg更换硬盘处理过程(内有彩蛋)

字数 2332阅读 6024评论 1赞 4

作者:王巧雷
目前在北京华胜天成科技股份有限公司,担任IT服务交付中心/专家支持部高级技术支持工程师一职。主要负责IBM Power小型机、存储产品、TSM备份软件及DB2数据库的高级技术支持及公司内部培训工作,精通相关技术技能。曾获第七届AIX高手挑战赛全国总决赛亚军。

事件起因

下午接到现场工程师电话,一台双系统抽屉IBM P570一个笼子掉了,经过排查电源坏了,经过各种折腾最后修复好了,但是发现rootvg的hdisk1掉了。经过检查,这台小机共有两块本地盘,每个系统抽屉1个,做了rootvg的镜像,现在来看,下面系统抽屉的硬盘损坏,连故障灯都不亮了。工程师反馈,损坏的硬盘无法删除。

事件处理

初次处理

1.当时第一反应,直接按PVID删除,告知工程师闪存命令,反馈依然无法删除。

2.远程登陆系统,经查询,存在大量的stale pp

3.执行lsvg –p rootvg,提示odm里找不到旧磁盘了

4.尝试通过rmlvcopy做了一下删除镜像的操作,估计没啥希望,结果提示报空间故障

5.检查/tmp空间,发现不足,清理空间

删除多余空间后正常

6.再次尝试rmlvcopy,依然报错,看报错,还是odm里已经没有了旧pv的信息,无法删除成功

7.执行synclvodm 命令,同步信息,提示同步成功

8.但再次执行查询命令,依然报错,抓狂啊

9.unmirror和reducevg当然也不行了

又回到了起点

再次分析

反推一下:

更换磁盘需要先解镜像---解镜像提示旧pv不在odm---synclvodm无法同步信息到odm

也就是说,必须要先解决0516-304的报错才可以往下走,但老pvid的信息又回不去,那怎么办?

自己创造一个吧

再次处理

1.告知工程师将坏盘拔了,换上新硬盘,扫描识别

2.确认坏盘的信息

3.通过bc命令,解构出坏盘PVID的八进制格式。

4.将坏盘的PVID数值强制写入新盘,发现暂时没变化

5.删除hdisk1重新识别后,pvid变成了以前的pvid

6.再次执行umirrorvg依然会失败,但是odm中已经有了旧pvid信息,这就好办了



7.查看rootvg的相关信息,虽然也异常,但已经不报0536-304的报错了

8.重新将hdisk1加入rootvg,可以看到,会出现2个hdisk1并存的情况,不用管它

9.执行unmirrorvg解镜像,报着错成功了,hdisk1的分布发生了变化,lv的镜像也解除了,虽然还是出现了2个hdisk1,不过暂时可以不用管他。

10.直接执行reducevg,报着错成功了,根据我们的操作,可以忽略报错。最后可以看到删除成功了。

11.后面就比较简单了,加盘,做镜像,生成引导,改引导顺序,一起都做了,不截图了。 bosboot -ad hdisk0 chdev -l hdisk1 -a pv=clear extendvg rootvg hdisk1 mirrorvg -c 2 rootvg hdisk0 hdisk1 bosboot -ad hdisk1 bootlist -m normal hdisk0 hdisk1

总结

每次问题的处理都是对基础知识的考验。只要坚信“问题总是可以解决的”,找到合适的切入点,终归会找到合适的解决方法。

本文选自社区AIX运维专栏中的王巧雷个人专栏,地址:
http://www.aixchina.net/Column/detail/id/1(复制粘贴到浏览器,看更多文章)

彩蛋来了~

近两年,一直被“大数据”、“云计算”“认知”这些潮流技术名词包围,作为一名传统IT工程师,好像离这些高大上的东西很远,甚至有些迷茫。

其实仔细来看,好多被认为“传统”的IT技术并没有消退,依然拥有强大的市场份额,默默的发挥着自己无可替代的作用。AIX就是其中的一员,作为IBM小型机首席御用操作系统,成熟、稳定、历久弥新。非常值得我们AIX工程师深入的学习和了解。让我们无视外界的纷扰,静下心来,回归工程师的"工匠精神",一起把AIX的各个部分好好聊一聊,聊明白,聊透彻。

那么,本期先从LVM开始吧——

LVM逻辑卷管理作为aix唯一的存储管理方式,可以说已经嵌入到AIX的基因里。对于AIX系统工程师来说,LVM是无论如何都无法避免的区域。VG镜像、存储迁移、IO调优,存储故障处理各个方面都有LVM的影子,每当我们在这些方面遇到难题时,其实都是直接或间接的和LVM战斗。

在AIX系统中,我们或多或少会遇到LVM这些常见的问题场景:

  1. 看似简单的rootvg硬盘更换,如果不注意可能会导致严重的后果。
  2. 善用AIX LVM特性,可以直接做存储双活方案,或做存储数据迁移。
  3. 在Oracle 已裸设备的方式使用LVM时,如果规划不当,可能会遭遇4K偏移量的问题。如果遇到了这种问题,后期如何去矫正?
  4. 如何处理由于故障或误操作导致的PVID变更问题?
  5. VG的三种不同类型在实际使用中有哪些限制?在生产环境中,对受限的VG类型做升级转换有哪些限制?需要注意什么?

在本次主题为“AIX LVM使用、优化、排错专题讨论会”中,希望能够对一些常见的LVM问题进行解决和澄清,并总结出一些好的方法和注意事项等。大家可以在活动中将自己在工作中遇到的AIX LVM相关的问题、建议、或者典型的故障案例,拿出来和大家一起分享、讨论。

学好了LVM这个基本功,在工作中会和AIX相处的更加如鱼得水。理越辩越明,知识也是一样,希望大家不管是提问者还是分享者,都能有自己的收获,一起成长、一起提高!

社区众多高手将来参与,还有本文作者王巧雷作为交流嘉宾

开始时间:11月17日 14:00

结束时间:11月24日 16:00

点击链接,在此期间,随时来聊!

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

4

添加新评论1 条评论

匿名用户
2021-06-22 01:01
666666,这波操作厉害了
Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广