在大量复杂运维告警出现时,如何基于机器学习实现大量告警信息的归类压缩,如何快速精准的进行故障定位,分析根因?
计算机报警种类繁,报警的厂商不同。日志格式,内容还有代码也都没有一个统一标准。想要通过机器学习实现精准的故障定位我觉得还有很长的路要走。至少要所有的厂商都开放自己的日志代码。基本实现统一的日志格式。以目前的技术来看。我觉得机器学习只能是帮助运维去简化和梳理日志。具体的故障判断和原因分析还是需要依靠人的经验。
关于故障定位,可以分为纵向与横向的问题追溯。横向上通过ESB对各服务模块调用关系进行梳理,建立服务调用关系图谱;纵向上结合系统运行信息分析,找出关联性能指标中潜在的问题,如CPU使用率,内存空间等。当故障发生时,由每个模块产生的智能监控告警结合图谱调用关系链帮助找出故障的源头。
关于TWT使用指南社区专家合作厂商入驻社区企业招聘投诉建议版权与免责声明联系我们 © 2024talkwithtrend — talk with trend,talk with technologist京ICP备09031017号-30