不知道其他兄弟有没有最佳实践,我说一下平时维护需要注意的地方:查看现象,了解一下前因后果,定位影响业务的范围和重要性。根据第1步骤,尤其业务系统重要性方面,比如要求系统及时恢复,那么可能简单的收集一下日志,做一下认为重要的记录,开始供电异常,还是dump文件,直接重新启动看看...
显示全部不知道其他兄弟有没有最佳实践,我说一下平时维护需要注意的地方:
- 查看现象,了解一下前因后果,定位影响业务的范围和重要性。
- 根据第1步骤,尤其业务系统重要性方面,比如要求系统及时恢复,那么可能简单的收集一下日志,做一下认为重要的记录,开始供电异常,还是dump文件,直接重新启动看看能不能启动。有可能需要断一下电源30秒,再行加电,如果正常,一切先恢复业务,或者是内存问题,但是不影响直接启动,无非是资源需要做适当调整。
- 如果还是不能正常启动,使用nim资源进行修复相应修复,该修复就修复,该恢复就恢复。是情况而定。
- 如果要求比较及时,如果是应用服务或者前端有F5之类的负载均衡,那就先在F5 之类的设备上就行手工修改或者根据配置自动down掉这个节点,带业务恢复后再行加入负载均衡。
- 有时间仔细研究问题原因,做好记录。
收起