AIOPS正在风口,但看了很多资料,都是抽象概念,我们都知道应用场景聚集在异常捕获、异常预测、根因分析、容量预测与规划等。
然而客户底层运维人员提出了一个很实际的问题,就拿异常预测来说,AIOPS平台通过模型训练与机器学习,针对当前的数据源分析并预测了未来6小时可能出现一个异常,然后呢?他的问题是:So What?我现在的运维流程里并没有对这样的异常进行明确的操作指示,我的工作该怎么做?而且你预测的异常毕竟指示一个可能性,这个可能性有多大还待考量,按照目前的运维管理流程,我什么也不会做,或者说引入了预测分析后,我的日常工作可能变得更加繁杂,除了处理已有的故障,还需要时刻去判断分析AIOPS平台预测的故障,而这些故障还不一定会发生。
因此,对于运维流程的变化,以及基层运维人员的日常处置建议,在现有的各大AIOPS玩家中并未发现有很详尽靠谱的规划和说明,我就想知道有人对这方面有研究么,你到底如何提高运维人员的工作效率,减轻运维人员的工作负担的?