cuizengshun
作者cuizengshun·2017-02-06 19:52
系统运维工程师·民生银行

aix系统运维案例(四):AIX操作系统宕机(内存参数numperm_global相关)

字数 489阅读 6339评论 0赞 1

故障描述

AIX操作系统宕机,HA正常切换至备节点。

系统环境

AIX 6.1 TL07 SP5
HACMP 6.1 SP8

故障分析

分析系统dump:


宕机的直接原因为DMS。

DMS一般为性能问题导致,下面进一步检查系统的相关性能数据:

可以看到在出问题点的时候,系统中有大量的换页,但是此时物理内存的计算内存使用率才34.9%,正常情况下此时不应该发生换页。

从dump也可以看到paging space上面有大量的IO在等待换页,同时有大量的包括hatsd在内的大量线程在等待paging换页,当hatsd没有在规定的时间内响应的时候,就会触发DMS,导致节点宕机。

到这里问题就回到为什么在内存使用率不高的情况下会产生换页。
这是一个AIX系统上的已知问题:
IV26272: REDUCE EARLY WORKING STORAGE PAGING APPLIES TO AIX 6100-07
此问题在之前也发生过,可以通过修改vmo的参数numperm_global为0来规避此问题。

后续分析

建议修改vmo参数numperm_global为0之后继续观察是否还有异常的换页情况发生。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

1

添加新评论0 条评论

Ctrl+Enter 发表

本文隶属于专栏

PowerVC专栏
本专栏主要分享PwerVM和PowerVC相关方面的架构、实施、运维等经验,以及企业私有云建设的相关经验及总结。

作者其他文章

相关文章

相关问题

X社区推广