基于机器学习的智能运维实践过程中遇到的困难有哪些?如何解决的?

参与8

2同行回答

cherrylookcherrylook软件架构设计师中国人寿保险集团
困难有很多,主要分数据、算法、平台三个方面吧。首先是数据采集方面主要是各类日志数据需要进行统一,海量的运维数据需要大量存储资源等。在做智能化算法初期,主要是缺少对历史异常数据的记录和日志数据格式的统一,通过无监督学习算法对未标注数据进行异常检测后难以判定是否...显示全部

困难有很多,主要分数据、算法、平台三个方面吧。
首先是数据采集方面主要是各类日志数据需要进行统一,海量的运维数据需要大量存储资源等。在做智能化算法初期,主要是缺少对历史异常数据的记录和日志数据格式的统一,通过无监督学习算法对未标注数据进行异常检测后难以判定是否有误告或者漏报的情况,短时间很难提高算法的准确性。为此我们经过了很长一段时间的累积,一方面累积适合的历史数据,另一方面也投入了很多专家人力协助我们去评定监控的效果,一点一点进行提升。
算法方面,目前对单一场景的监控、异常检测准确率还可以,但是对根因分析方面还是不是特别深入,可以将问题的链路串联起来,但是比较难以去预防故障发生。
平台方面主要涉及一套体系化的架构设计,这方面我们也充分借鉴了一些外部资源进行技术咨询,结合公司自身的运维监控体系去搭建的一套自适的平台。

收起
保险 · 2019-04-18
浏览2292
zjwy82zjwy82系统架构师bank
机器学习的基础是数据,数据的完整性、可靠性、及时性都是需要关注的问题,也就是数据治理,这是任一个基于数据的应用都需要做的,而且可借鉴的经验相对少。二是数据标签的准确性,数据都存在各种特征点,如何做好特征标记,是让机器学习有效准确的重要约束。三是算法模型选取,多因子配...显示全部

机器学习的基础是数据,数据的完整性、可靠性、及时性都是需要关注的问题,也就是数据治理,这是任一个基于数据的应用都需要做的,而且可借鉴的经验相对少。二是数据标签的准确性,数据都存在各种特征点,如何做好特征标记,是让机器学习有效准确的重要约束。三是算法模型选取,多因子配置,算法效率优化都是需要解决的问题。

收起
银行 · 2019-04-18
浏览2276

提问者

chengfeiw
软件开发工程师中国银行

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2019-04-17
  • 关注会员:3 人
  • 问题浏览:3577
  • 最近回答:2019-04-18
  • X社区推广