基于机器学习如何实现大量告警情况下精准的故障定位及根因分析?

在大量复杂运维告警出现时,如何基于机器学习实现大量告警信息的归类压缩,如何快速精准的进行故障定位,分析根因?

参与13

2同行回答

pysx0503pysx0503系统工程师第十区。散人
计算机报警种类繁,报警的厂商不同。日志格式,内容还有代码也都没有一个统一标准。想要通过机器学习实现精准的故障定位我觉得还有很长的路要走。至少要所有的厂商都开放自己的日志代码。基本实现统一的日志格式。以目前的技术来看。我觉得机器学习只能是帮助运维去简化和梳...显示全部

计算机报警种类繁,报警的厂商不同。日志格式,内容还有代码也都没有一个统一标准。想要通过机器学习实现精准的故障定位我觉得还有很长的路要走。至少要所有的厂商都开放自己的日志代码。基本实现统一的日志格式。以目前的技术来看。我觉得机器学习只能是帮助运维去简化和梳理日志。具体的故障判断和原因分析还是需要依靠人的经验。

收起
系统集成 · 2019-04-17
浏览3101
cherrylookcherrylook软件架构设计师中国人寿保险集团
关于故障定位,可以分为纵向与横向的问题追溯。横向上通过ESB对各服务模块调用关系进行梳理,建立服务调用关系图谱;纵向上结合系统运行信息分析,找出关联性能指标中潜在的问题,如CPU使用率,内存空间等。当故障发生时,由每个模块产生的智能监控告警结合图谱调用关系链帮助找出故障...显示全部

关于故障定位,可以分为纵向与横向的问题追溯。横向上通过ESB对各服务模块调用关系进行梳理,建立服务调用关系图谱;纵向上结合系统运行信息分析,找出关联性能指标中潜在的问题,如CPU使用率,内存空间等。当故障发生时,由每个模块产生的智能监控告警结合图谱调用关系链帮助找出故障的源头。

收起
保险 · 2019-04-17
浏览2991

提问者

朱向东
高级工程师某银行
擅长领域: 服务器存储数据库

问题来自

相关问题

相关文章

问题状态

  • 发布时间:2019-04-17
  • 关注会员:4 人
  • 问题浏览:4145
  • 最近回答:2019-04-17
  • X社区推广