日志的采集规则其实没什么说的,民生用 filebeat +kafka +ES 实现了软件日志和应用日志的采集。例如 DB2 会采集 db2diag,log. 然而当前日志采集后的用途只有事后查,还不算监控和利用起来。所以现在我们要做日志的检测。当前有两个思路。其中一个思路是将日志抽取成模板,然后监视模板命中的次数等信息。还有一个思路是我想做的。我会建立一个运维问题库,采集产品官方问题加上自己在运维中累积的问题。这些问题和产品日志做相似度检测,实时判断日志是否命中已知问题。这样 OS 、 DB 、 APP 的日志都可以管理起来。
第二个问题是怎么做关联分析。其实我现在已经不仅仅是在做数据运维了。我接了 OS , JVM , DISK , DB 的数据,会为这些数据做异常检测。异常检测的结果也是以智能场景的形式来推送。同样日志的检测也算是场景命中检测。同一时间我只要汇总查看这些各个组件命中的场景,就很容易定位问题了。当前还是人工,未来一定是智能运维。