系统集成AIX

昨晚刚处理的一个故障

收到告警后,检查发现所有接存储的小机均报大量下面的错误:

C62E1EB7   1017004715 P H hdisk2         DISK OPERATION ERROR

E86653C3   1017004715 P H LVDD           I/O ERROR DETECTED BY LVM

C62E1EB7   1017004715 P H hdisk2         DISK OPERATION ERROR

E86653C3   1017004715 P H LVDD           I/O ERROR DETECTED BY LVM

C62E1EB7   1017004715 P H hdisk2         DISK OPERATION ERROR

E86653C3   1017004715 P H LVDD           I/O ERROR DETECTED BY LVM

C62E1EB7   1017004715 P H hdisk2         DISK OPERATION ERROR

E86653C3   1017004715 P H LVDD           I/O ERROR DETECTED BY LVM


AIX6.1的系统,P6的小机。

处理过程如下:

1、由于所有主机都报这样的错,排除人为、某根光纤线或者HBA卡的原因;

2、首先怀疑磁阵出问题了,检查磁阵发现磁阵状态良好;

3、检查主机上的卷组和文件系统,发现卷组和文件系统都在,文件系统处于挂载状态,pv,vg 状态正常;

4、进入到对应的文件系统中,发现文件系统是read-only模式,没法写;

5、检查多路径信息,链路目前都正常;

-----这里说明一下,因为在半夜,从收到告警到登录到主机上进行检查时,中间有点儿准备的时间的;

5、先操作备机,打算重新umount下文件系统,有进程在,用fuser -kxuc 杀访问文件系统的进程时,备机突然中断,连不上了,怀疑是自动重启了,等了一会儿机器没起来,担心机器会卡住,马上安排人去机房查看;

6、开始处理主机无法访问的文件系统,这次不再用fuser -kx这种方式了,先用命令停程序,然后用kill的方式杀剩余的几个访问文件系统的进程;因远程有问题,这次由同事操作,操作顺利。

7、重新挂载文件系统后,读写权限恢复,业务开始恢复;

8、检查DB主机时,发现oracle数据库主机,因为用的裸设备,从出现IO问题,到IO链路恢复,数据库是自动恢复的,人工没有干预;

9、检查SAN交换机时,发现两台SAN交换机在同一时间都发生重启了,uptime显示才运行几个小时,算了下时间,SAN交换机重启时,正好是主机开始报IO错误的时间,原因算是找到了,业务也恢复了,本应该处理完毕了;

客户却抓住不放了,客户不去查为啥俩SAN交换机同时被掉电,一直问文件系统为啥会变成只读模式的,链路恢复后,怎么没自动恢复到正常状态,而需要人工排查那么长时间; 还问能不能把这种保护机制关掉。。。。

参与32

12同行回答

zealotddvzealotddv售前技术支持四川久远银海
我认为read-only是因为san交换机闪断,系统检测到了异常后的一种文件自我保护行为~不过问题的关键还是应该看看san交换机为何同时掉电?显示全部

我认为read-only是因为san交换机闪断,系统检测到了异常后的一种文件自我保护行为~不过问题的关键还是应该看看san交换机为何同时掉电?

收起
软件开发 · 2015-10-19
浏览4288
798683133yj798683133yj系统架构师政务云某公司
客户电源都是双路电,很有可能一路负载大了,做了切换。通过您的描述,应该是san交换只接到一路电上;san交换如果有两个电源,应接到两路不同电上。显示全部

客户电源都是双路电,很有可能一路负载大了,做了切换。通过您的描述,应该是san交换只接到一路电上;san交换如果有两个电源,应接到两路不同电上。

收起
金融其它 · 2015-10-19
浏览4254
zhenzongjianzhenzongjian软件开发工程师na
san能同时掉电。。也挺诡异的显示全部

san能同时掉电。。也挺诡异的

收起
互联网服务 · 2015-11-30
浏览3543
无000痕无000痕系统工程师中软
这比较诡异,一般是挂死状态,就是不能访问但是文件系统还是mount状态显示全部
这比较诡异,一般是挂死状态,就是不能访问但是文件系统还是mount状态收起
系统集成 · 2015-11-26
浏览2923
CJ_aneCJ_ane系统运维工程师IBM
3、检查主机上的卷组和文件系统,发现卷组和文件系统都在,文件系统处于挂载状态,pv,vg 状态正常;4、进入到对应的文件系统中,发现文件系统是read-only模式,没法写;===============================================当时检查vg的时候vg是varyon的吗?怎么发现文件系统是readonly的?...显示全部

3、检查主机上的卷组和文件系统,发现卷组和文件系统都在,文件系统处于挂载状态,pv,vg 状态正常;

4、进入到对应的文件系统中,发现文件系统是read-only模式,没法写;

===============================================

当时检查vg的时候vg是varyon的吗?

怎么发现文件系统是readonly的?

收起
IT其它 · 2015-10-30
浏览4164
neilruleneilrule系统运维工程师zhou
为什么会同时掉电呢?这两边都停电了啊?显示全部

为什么会同时掉电呢?这两边都停电了啊?

收起
金融其它 · 2015-10-19
浏览4171
zwz99999zwz99999系统工程师dcits
san switch 应该是双链路的,每个san switch的两个电源应该接到不同的pdu上,这个是最基本的道理,这样能确保电源一路坏了,san switch能正常跑,他们的连接方式就不对,怎么不去问问显示全部

san switch 应该是双链路的,每个san switch的两个电源应该接到不同的pdu上,这个是最基本的道理,这样能确保电源一路坏了,san switch能正常跑,他们的连接方式就不对,怎么不去问问

收起
系统集成 · 2015-10-19
浏览4460
VincentVincent存储工程师china
两台SAN交换机掉电,文件系统受到影响。显示全部

两台SAN交换机掉电,文件系统受到影响。

收起
银行 · 2015-10-19
浏览4199
kanter2008kanter2008系统工程师上海***
又是遇到了,高学历,高工资,高智商,低能的公务员了吧?告诉他:你们家科室主任在机震,把线震掉了。那斯一定不再追问了。显示全部

又是遇到了,高学历,高工资,高智商,低能的公务员了吧?

告诉他:你们家科室主任在机震,把线震掉了。那斯一定不再追问了。

收起
互联网服务 · 2015-10-19
浏览4262
weiruan85weiruan85数据库管理员ibm
只读模式,这个有点诡异显示全部

只读模式,这个有点诡异

收起
政府机关 · 2015-10-18
浏览4319

提问者

tong2012
系统工程师中国航空
擅长领域: 服务器存储新核心系统

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2015-10-17
  • 关注会员:15 人
  • 问题浏览:14290
  • 最近回答:2015-11-30
  • X社区推广