一个小小的故障出现必将引起数十个甚至上百的设备报警,那么现阶段的自动化运维软件能够把故障定位精确到什么程度?还是仅仅能做到提示,真正的故障原因还需要运维人员自己去手动找?
故障定位算法采用机器学习中的二叉决策树的方式实现: 一方面希望将故障所产生的所有告警信息整合为一条信息,减少告警量; 另一方面希望能够智能定位出故障点,减少工程师排查问题的时间,并引入自动化处理。
以网络故障原因定位为例,实现上述目标需要三步: 第一步:将问题排障过程的经验提炼成二叉决策树; 第二步:将告警信息按照时间分片算法进行分类分组; 第三步:将分组的告警信息输出给决策树进行自动推理输出推理结果。 智能定位出故障点,尽可能减少人工参与,提高运维效率。
在大多数单位目前阶段自动化运维只是执行的工具,做一些标准的自动化动作。制订标准-检查系统运行情况是否符合标准,根据预设的去执行动作,还远未达到智能运维的美好愿望。分析的“大脑”还未健全
收起