监控和告警通常是AIOps中首先需要解决的问题,当前的告警机制大多基于单一指标的分布和阈值来判定,误报率非常高,而且在时效上具有一定的延迟性。如何解决这个 问题?大家采用什么方法
告警本身是轻量级的程序,模型需要对大量的历史数据进行学习,如果存在时效性问题,还是要分清是由什么带来的,如果确实模型训练耗时真的非常严重,建议采用更高配置的GPU服务器。告警收敛需要结合聚类算法和专家经验进行,具体还需要结合应用场景才有意义。
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30