我们现在解决问题的线索大部分是从日志分析得来的,现有的解决问题的思路也是大同小异的。那么通过建设日志分析,实现故障处理自动化,理论上也是可以的。我们公司现在只能做到日志分析,至于分析后故障自动化处理还在研究中。对于日志分析,大家有什么经验谈谈呗
其实监控平台就是对系统日志进行分析,对系统的故障可以及时发出告警,这是因为系统日志很规范,对系统的软件故障、硬件故障以不同错误级别的分类日志显示。如果要求对应用进行监控,就需要开发人员给我们的应用日志很规范,比如错误日志范畴、警告日志范畴,这样我就可以基于他们给的规范对应用日志全扫描分析
收起日志分析是定位故障最基础的数据来源,对日志分析的整个流程,无非就是日志采集、存储、处理、分析及故障定位这几个关键步骤。
早期的自动化运维工具和一些监控工具大都是利用系统日志来触发告警,如今的自动化运维慢慢发展到要结合企业CMDB的建设,但CMDB中,日志同样也是重要的配置项。
如果仅仅要对日志分析,可考虑使用如ELK、Hadoop等一些工具,无论是使用工具与否,做好日志分析,还是要从以上所说的几个关键步骤来做:
日志采集上要注意对大量异构日志的采集方法,做到可持续高速即可。
日志存储上方面可借助一些非关系型数据库,保证存储能够水平扩展以及进行全文索引。
日志处理分析层面要结合相关的情景数据进行监控和关联分析,这也是快速定位故障的关键。
而您所说下一步故障的自动处理,甚至是系统的自愈,这就需要大规模的实践了,风险也比较大,具体故障场景要具体分析恢复策略。
收起