金融企业做AIOps,如何解决运维监控误报率高,以及时效性延迟?

监控和告警通常是AIOps中首先需要解决的问题,当前的告警机制大多基于单一指标的分布和阈值来判定,误报率非常高,而且在时效上具有一定的延迟性。如何解决这个 问题?大家采用什么方法

参与10

3同行回答

cherrylookcherrylook软件架构设计师中国人寿保险集团
告警本身是轻量级的程序,模型需要对大量的历史数据进行学习,如果存在时效性问题,还是要分清是由什么带来的,如果确实模型训练耗时真的非常严重,建议采用更高配置的GPU服务器。告警收敛需要结合聚类算法和专家经验进行,具体还需要结合应用场景才有意义。...显示全部

告警本身是轻量级的程序,模型需要对大量的历史数据进行学习,如果存在时效性问题,还是要分清是由什么带来的,如果确实模型训练耗时真的非常严重,建议采用更高配置的GPU服务器。告警收敛需要结合聚类算法和专家经验进行,具体还需要结合应用场景才有意义。

收起
保险 · 2019-04-17
浏览2014
顾黄亮顾黄亮课题专家组技术总监畅销书作者
1:我不清楚提问者所说的误报率高是哪方面的原因,我的理解是这样的,监控分两部分,一部分是数据的采集、清洗、格式化;一部分的阈值公式的选择。如果是数据问题,那就要保证数据过程中的准确率,如果是阈值问题,那就是告警容忍度问题了,其实这个跟aiops是没有直接关系的。2:时效性问题,...显示全部

1:我不清楚提问者所说的误报率高是哪方面的原因,我的理解是这样的,监控分两部分,一部分是数据的采集、清洗、格式化;一部分的阈值公式的选择。如果是数据问题,那就要保证数据过程中的准确率,如果是阈值问题,那就是告警容忍度问题了,其实这个跟aiops是没有直接关系的。
2:时效性问题,我们也曾经遇到过。说到底还是容忍度。所谓的监控只是事中和事后的,不存在事前,如有人跟你说能做到事前,那是预测,不是监控。再谈谈你的容忍度,你是想要准实时的秒级监控,还是想要分钟级监控,跟你的数据清洗方式,数据采集方式,你的技术选型有相关的。

收起
银行 · 2019-04-18
浏览1919
fengzhen2003fengzhen2003其它中国光大银行
      我个人认为误报率高和时效性延迟是同一个问题,都属于报警监控指标过于单一化,监控指标粒度不够细,阈值设定过于静态化等问题。误报是由于阈值设定固定导致实际没有问题而发生了报警,时效延迟的问题属于应该监控的指标没有监控,该指标不正常导致发生问题后不能及时报...显示全部

      我个人认为误报率高和时效性延迟是同一个问题,都属于报警监控指标过于单一化,监控指标粒度不够细,阈值设定过于静态化等问题。误报是由于阈值设定固定导致实际没有问题而发生了报警,时效延迟的问题属于应该监控的指标没有监控,该指标不正常导致发生问题后不能及时报警,与其关联到的其他监控指标受该指标影响在后续时间发生超阈值而报警,此时报警感觉时效滞后,实际是有的指标没得到有效监控导致的。
    因此,我个人认为解决这些问题可以考虑以下几个方面:1.监控指标需要更细粒度化。2.监控阈值需要动态化。3.加入算法实现多指标的动态监控策略。

收起
银行 · 2019-04-18
浏览1953

提问者

chengfeiw
软件开发工程师中国银行

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2019-04-12
  • 关注会员:4 人
  • 问题浏览:3579
  • 最近回答:2019-04-18
  • X社区推广