大家好,我们的生产环境的portal 服务器最近发生了三次宕机,三次的现象都类似。问题的现象是刚开始一个node的cpu使用率很高,后来出现OOM。后来引起另外一个node也宕掉,数据库服务器的cpu正常。服务器的内存和网络都是正常的,内存没出现paging。三次宕机都出现了heap dump和java core文件。
最近一次就是刚开始node1的cpu很高,几个小时候出现了OOM。日志里面看不到用户进来,但是nod1的cpu还是很高,node2是正常的。无法正常停止node1,直接kill -9 没法杀掉portal 进程,最后先杀掉nodeagent 的进程,然后才能杀掉portal 的进程。
下面是环境的一些信息。
os: aix 6.1
websphere portal v701
一个水平cluster,两个node,在两个机器上。
JVM size: 3072 M
下图是cpu最先出现OOM错误的cpu report.
大家能否指导下解决问题的思路和觉的可能出现出问题的地方?
谢谢!
收起