一次0518 usr mnt failed 故障处理失败经过

前几日,上午,客户电话疾呼,两台小机(一台650,一台F80)宕机不能启动,而且启动过程中机器上的液晶屏均停留在0518 USR MNT Failed状态。
      速赶往现场,在路上已经想好对策,无外乎就是引导区损坏或者FS不正常吧,去了fsck或者bosboot一下,应该就可以了,不过两台机器同时报错,还是挺奇怪的。
      进了机房,见客户领导正在训话,探知方知那日早上数台主机宕机,包括还有几台PC Server,心中疑惑,难道黑客侵入了??拿AIX5.1引导盘引导起来那台宕机650,启动正常,rootvg也在,按照提示,按1、2不同选项进入维护模式,fsck -y /dev/hd1,fsck -y /dev/hd2,......直到hd9var,均无错误提示,logform /dev/hd8,回答yes。
bosboot -ad /dev/hdisk0,回车,??显示not found ,奥,看来是这个命令在/usr里,mount /usr,正常,再次bosboot,????? 显示KILLED,打mount ,KILLED,ls,KILLED,reboot,KILLED,shutdown,KILLED。天哪,好像就没有不KILLED的,exit,不KILLED了,但也不能做其它操作了,只好关机重启。
    后面的时间就在两台机器之间折腾,测试各种方法。翻看以前记录,比照这种现象,怀疑是hd5损坏。
“执行bosboot -ad /dev/hdisk0 报错,那么很可能是hd5有问题了,那么删除原来hd5
rm /dev/hd5
rm /dev/rhd5
然后重建hd5
mknod /dev/hd5 b 10 1
mknod /dev/rhd5 c 10 1
bosboot -ad /dev/hdisk0
可以用lslv -m hd5检查hd5信息。”
按照这些步骤在一台机器上作了,还是如故,bosboot依旧不好用,mount /usr,运行命令还是KILLED。无法,翻出一个P5机器的序列号,密码,冒充新机器操作系统损坏打800咨询,回复方式和我原先作的fsck一样,800还是比较负责的,一直电话跟踪。在后来测试中还发现在开始还没有fsck /dev/hd2,就直接mount /usr 的时候,提示 could not table filesystems data.
There is no plausible log device for /dev/hd2.
怀疑/usr的log设备连接丢失。chfs -a log=/dev/hd8 /usr,故障依旧。
后怀疑superblock损坏,dd seek=1 skip=31 count=1 bs=4k if=/dev/hd2 of=/dev/hd2,故障依旧。
最后怀疑filesystems这个文件损坏,进入维护模式操作如下:
mount /dev/hd4 /mnt
mv /mnt/etc/filesystems /mnt/etc/filesystems.bk
cp /etc/filesystems /mnt/etc/filesystems
umount /mnt
exit
在此过程中,发现/mnt里没有etc这个目录!!难道故障原因就是因为etc被删除了??!!另外一台主机情况一样,难道真的有黑客闯进来了???!!!
到此,已经没有别的办法恢复了,而且一旦用系统备份磁带恢复,里面的记录也就没有了,真是高人呀........
等磁带恢复了(倒是挺快的,前后也就1小时),已经晚上7点多了。
吃饭聊天的时候,不禁对此"黑客"“大为崇敬”,无意中被告知,此两台主机密码自从安装完毕一直没有改动,一直是root,知道的人不计其数,天哪..................
参与17

提问者

power
系统架构师易通
擅长领域: 服务器小型机前置系统

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2009-02-02
  • 关注会员:2 人
  • 问题浏览:17006
  • 最近回答:2016-12-15
  • X社区推广