“运维日志分析”中,AI 算法的应用案例,孔老师能介绍下吗?

一般 OS、DB、APP、中间件的日志都会采集到 ELK日志分析系统。1、日志的采集规则,您能讲讲吗?比如,DB2 的 db2diag.log?Linux的日志?2、有时处理一些棘手的问题时,作为 DBA角色孤木难支,很难从DB层面定位问题找到解决方案,经常需要系统工程师、开发人员、中间件工程师一起协...显示全部

一般 OS、DB、APP、中间件的日志都会采集到 ELK日志分析系统。
1、日志的采集规则,您能讲讲吗?比如,DB2 的 db2diag.log?Linux的日志?

2、有时处理一些棘手的问题时,作为 DBA角色孤木难支,很难从DB层面定位问题找到解决方案,经常需要系统工程师、开发人员、中间件工程师一起协作才能找到问题,费时费力不说,协调沟通成本大!责任很难划清!
所以想问下孔老师,OS、DB 、APP日志如何使用AIOps进行关联分析,快速定位问题区域,由专职人员处理?

收起
参与9

返回anikikong的回答

anikikonganikikong课题专家组数据库运维工程师中国民生银行
  1. 日志的采集规则其实没什么说的,民生用 filebeat +kafka +ES 实现了软件日志和应用日志的采集。例如 DB2 会采集 db2diag,log. 然而当前日志采集后的用途只有事后查,还不算监控和利用起来。所以现在我们要做日志的检测。当前有两个思路。其中一个思路是将日志抽取成模板,然后监视模板命中的次数等信息。还有一个思路是我想做的。我会建立一个运维问题库,采集产品官方问题加上自己在运维中累积的问题。这些问题和产品日志做相似度检测,实时判断日志是否命中已知问题。这样 OS 、 DB 、 APP 的日志都可以管理起来。
  1. 第二个问题是怎么做关联分析。其实我现在已经不仅仅是在做数据运维了。我接了 OS , JVM , DISK , DB 的数据,会为这些数据做异常检测。异常检测的结果也是以智能场景的形式来推送。同样日志的检测也算是场景命中检测。同一时间我只要汇总查看这些各个组件命中的场景,就很容易定位问题了。当前还是人工,未来一定是智能运维。
银行 · 2019-12-20
浏览1817
atpeace331 邀答
  • 1、“日志模板”如果做得太多,db2diag.log的每一条日志都要经过这么多模板处理,处理量太大。而结合官方与日常运维FAQ 的“知识库” 应该更好,能命中绝大多数问题场景,且比模板工作省时省力,基于第三方“搜索引擎”或矩阵相似度检测效率也会更高。 2、各个系统日志 “异常场景” 主要来自日常运维经验总结还有指标关联分析发现的一些场景,是这样吧?
    2019-12-20
  • 是这样,这是为什么我是采用第二种方式。智能运维很重要的一个目标就是健全知识库。强大的知识库会指导我们日常运维方法。
    2019-12-20

回答者

anikikong
数据库运维工程师中国民生银行
擅长领域: 数据库灾备双活

anikikong 最近回答过的问题

回答状态

  • 发布时间:2019-12-20
  • 关注会员:2 人
  • 回答浏览:1817
  • X社区推广