监控和告警通常是AIOps中首先需要解决的问题,当前的告警机制大多基于单一指标的分布和阈值来判定,误报率非常高,而且在时效上具有一定的延迟性。如何解决这个 问题?大家采用什么方法
告警本身是轻量级的程序,模型需要对大量的历史数据进行学习,如果存在时效性问题,还是要分清是由什么带来的,如果确实模型训练耗时真的非常严重,建议采用更高配置的GPU服务器。告警收敛需要结合聚类算法和专家经验进行,具体还需要结合应用场景才有意义。
收起1:我不清楚提问者所说的误报率高是哪方面的原因,我的理解是这样的,监控分两部分,一部分是数据的采集、清洗、格式化;一部分的阈值公式的选择。如果是数据问题,那就要保证数据过程中的准确率,如果是阈值问题,那就是告警容忍度问题了,其实这个跟aiops是没有直接关系的。
2:时效性问题,我们也曾经遇到过。说到底还是容忍度。所谓的监控只是事中和事后的,不存在事前,如有人跟你说能做到事前,那是预测,不是监控。再谈谈你的容忍度,你是想要准实时的秒级监控,还是想要分钟级监控,跟你的数据清洗方式,数据采集方式,你的技术选型有相关的。