AIX: 6100-06-06
系统多次发生夯死,可以ping通,但是无法登入,包括hmc也不能登入。因此重启收了dump。
查看dump数据:
(0)>
pvthread+0FD500 STACK:
[0053577C]slock+00011C (0000000000000000, F00000002FF45B60 [??])
[00009558].simple_lock+000058 ()
[00175A88]bmFree+000108 (??, ??)
[00176338]bmRecycle+000698 (??, ??)
[0017B660]bmAssign+000640 (??, ??, ??, ??, ??, ??)
[0017AA5C]bmRead+00009C (??, ??, ??, ??, ??, ??)
[003C07A0]dtSearch+0004C0 (??, ??, ??, ??, ??)
[003DE208]j2_lookup+000388 (??, ??, ??, ??, ??, ??)
[00586AE4]vnop_lookup+000184 (??, ??, ??, ??, ??, ??)
[005491A4]lookuppn+000A04 (??, ??, ??, ??, ??, ??, ??, ??)
[00549960]lookupname_internal+0000A0 (??, ??, ??, ??, ??, ??, ??, ??)
[00549A84]lookupname_cur+000024 (??, ??, ??, ??, ??, ??, ??)
[0076738C]accessx+0002AC (??, ??, ??)
[0076679C]access+00003C (??, ??)
[00003850]ovlya_addr_sc_flih_main+000130 ()
[kdb_get_virtual_memory] no real storage @ 12FF22518
通过堆栈数据查询到此问题为系统bug:IV17291: JFS2 FILESYSTEM HANG IN BMASSIGN APPLIES TO AIX 6100-06
由于系统短期内多次触发此bug,导致生产系统受影响,所以后续又做了进一步分析:
On AIX 6.1 TL5 and later TLs a JFS2 filesystem may hang,causing all commands accessing that filesystem to hang and to be unkillable.
从bug描述可以看出,此问题为jfs2文件系统问题,说明会有I/O无法完成,于是查看了当时pending的I/O:
(0)>
SLOT NEXTIO DEVICE DMSRVAL IOCNT OLDIO <name>
vmmary_pdt+006DB0 0082 FFFFFFFF 8000000A00000007 AC002C080 00000008 00000000 local client
vmmary_pdt+006F60 0084 FFFFFFFF 8000000A00000005 00000000 0000000F 00000000 local client
vmmary_pdt+007620 008C FFFFFFFF 8000000A00000010 00000000 00000001 00000000 local client
vmmary_pdt+0078A8 008F FFFFFFFF 8000002600000001 00000000 00000001 00000000 local client
vmmary_pdt+007A58 0091 FFFFFFFF 8000000A00000013 00000000 00000008 00000000 local client
可以看到有5个文件系统上有未完成的I/O,查询后发现为下面文件系统:
CuDvDr:
resource = "devno"
value1 = "38"
value2 = "1"
value3 = "Plv_WebSphere"
CuDvDr:
resource = "devno"
value1 = "10"
value2 = "5"
value3 = "hd2"
CuDvDr:
resource = "devno"
value1 = "10"
value2 = "7"
value3 = "hd3"
CuDvDr:
resource = "devno"
value1 = "10"
value2 = "10"
value3 = "hd11admin"
CuDvDr:
resource = "devno"
value1 = "10"
value2 = "13"
value3 = "loglv00"
除了第一个为WAS使用的文件系统,其他都是rootvg下的系统所用文件系统。所以尝试umount后fsck,等待后续补丁安装。
看来我得补充一下了,本来我以为大家都是搞技术的,不用写那么详细。
如果打开补丁看,就可以知道在当前使用的6100-06上,升级到6100-06-09就可以解决问题,我所谓的等待后续补丁安装,不是说等待IBM出补丁,而是说出问题的都是生产系统,不可能想装补丁就装了,需要窗口来做。。。
至于此系统,最后是升级到当时定的基线版本6100-09-10了。。。
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞5
添加新评论4 条评论
2018-03-26 16:41
2018-03-26 16:02
2018-03-25 09:05
2018-03-24 08:57
neilrule: @zcome 牛逼,在下面的某个版本有修复就好,不然是不太可能专门帮你做补丁的了。
zcome: @neilrule 你都不看一下补丁说明,怎么会知道没补丁? 6.1tl6-tl9全都有补丁。。。