WAS经常出现间歇性宕机,如何定位?

WAS集群经常间歇性宕机,无日志,无信息,如何定位呀?显示全部
WAS集群经常间歇性宕机,无日志,无信息,如何定位呀?收起
参与20

查看其它 15 个回答henryhu的回答

henryhuhenryhuit技术咨询顾问IBM China
主要看如何定义“歇性宕机”:

1. 如果是WAS Java进程仍然运行中,但是HTTP请求没有任何响应,浏览器白屏。针对这种情况,我们可以通过每间隔5~10秒 运行kill -3 来产生 JavaCore 线程快照文件,后期可以通过ISA或JCA (JavaCore Analyzer)工具来分析,分析出现故障时刻所有的Java 线程都在干什么,从而可以从中分析出蛛丝马迹。

2.  如果是WAS Java消失,需要查看WAS 服务器所在 Profile目录中是否由操作系统自动产生CoreDump文件(core.....),HeapDump和JavaCore快照文件,如果有的话需要通过对应工具进行分析。如果自己没有分析能力的话,可以提交日志到IBM 800,并寻求IBM的官方技术支持。我们同时也可以仔细排查 Profile目录中的logs 目录,当然不要忽略ffdc目录的日志,或许会有重大发现。从这些日志中查看是否存在任何可疑的信息,并对此分析。

Java进程突然消失,还有其他情况会引起:
A.排查应用中是否使用了JNI模块,如果有JNI模块,请与对应开发人员进行确认,在JNI C代码模块中是否有任何处理操作系统信号量的地方,此处极其容易引起Java进程退出。还需要排查在 JNI  C  模块中是否存在allocate 内存的操作,JNI 内存的申请是属于Java进程的内存空间,需要查看是否有地址越界的问题,一般这种情况下,在操作系统中会出现CoreDump日志文件。由JNI C模块导致的内存异常,我们定义为 Native OOM。

B.在Java应用代码中是否存在任何System.exit 的操作,此Java操作会导致Java进程自动退出。
IT咨询服务 · 2014-03-19
浏览1213

回答者

henryhu
it技术咨询顾问IBM China
擅长领域: 服务器中间件应用服务器

henryhu 最近回答过的问题

回答状态

  • 发布时间:2014-03-19
  • 关注会员:3 人
  • 回答浏览:1213
  • X社区推广