宕机原因分析:
一、资源问题引起
1、资源问题,根据历史监控分析宕机可能性。
二、BUG问题引起
1、程序BUG问题,如何追溯程序BUG。
2、操作系统BUG问题,如何追溯操作系统的BUG。
三、硬件问题引起
1、物理硬件故障导致宕机?如何考虑物理冗余性硬件?
三、硬件问题引起
1、物理硬件故障导致宕机?如何考虑物理冗余性硬件?
硬件问题是 应用系统上线前,IT基础架构详细设计的,设备本身物理备件的冗余,物理设备冗余就是需要软件高可用实现.尽量规避某些单点部件导致的不可控的事件
二、BUG问题引起
1、程序BUG问题,如何追溯程序BUG。
各个应用程序都需要开发参与定位bug原因
2、操作系统BUG问题,如何追溯操作系统的BUG。
操作系统都有自己的工具去分析,比如aix kdb,通过kdb分析后,找厂商却确认bug原因
http://www.aixchina.net/Question/227337 这个案例就是
一、资源问题引起
1、资源问题,根据历史监控分析宕机可能性。
资源引起宕机的案例,有很多。一半吃CPU 内存的业务系统比较容易产品这个问题,比如中间件 java环境很容易占内存,吃完内存用ps
重点还是看哪类应用重点去优化监控