AIOps,顾名思义是将AI赋能于IT运维管理。国际权威咨询机构Gartner在2016年的报告里首次提出AIOps的概念。
传统的IT运维工作,大多是借助监控软件查看数据,并依赖运维人员的经验进行根因定位和排障。有了AI的加持后,可以借助AI算法提前发现数据中的异常,并通过数据串联锁定可能根因,大大缩短故障处理时间、提高运维效率。
经过多年来的发展,越来越多的大中型企业投入智能运维AIOps的部署,以应对企业数字化转型带来的数据量暴增、系统架构复杂带来的运维挑战。
IT运维管理面临着两难境地的巨大挑战,一方面要降低成本,另一方面其复杂度又不断攀升。主要体现在数据量巨大、数据类型繁多和数据生成速度快三个维度:
IT基础架构和应用程序产生的数据量快速增长(年增长2-3倍)
机器和人工生成的数据类型越来越多(例如指标、日志、网络数据和知识管理文档)
由于采用了云架构和其他临时性的架构,数据生成速度不断提高,IT架构内变化速率也在提高
鉴于现代企业所需的洞察力,对这三个维度进行权衡的代价将相当巨大。因此,越来越多的客户对AIOps越来越感兴趣,并想通过大数据和机器学习技术来分析服务台的有效性,以此参与到故障和问题解决流程中去。IT组织还开始在DevOps环境中探索AIOps,将其作为持续集成/持续交付(CI/CD)周期的一部分,便于在部署之前预测潜在的问题,并检测潜在的安全问题。
AIOps分析的应用超越了其最初的使用范围,而成为IT运维中事件关联和分析的最佳解决方案。
AIOps,也就是基于 算法 的 IT 运维(Algorithmic IT Operations),是由 Gartner 定义的新类别,源自业界之前所说的 ITOA(IT Operations and Analytics)。我们已经到达了这样的一个时代,数据科学和算法正在被用于自动化传统的 IT 运维任务和流程。算法被集成到工具里,帮助企业进一步简化运维工作,把人类从耗时又容易出错的流程中解放出来。人们不再需要在遗留的管理系统中定义和管理无穷无尽的规则和过滤器。
从未来发展趋势来看从0搭建大规模aiops,ITOA、AIOps会是未来增长最快从0搭建大规模aiops的两个方向。随着以数据为核心的运维分析出现,运维市场逐渐由ITOM演变成ITOA(IT Operations Analytics),后来又提出了智能化运维(AIOps)。尽管目前肯定还是ITOM占市场的主体,但随着企业数字化转型的快速发展,IT系统数量快速增长,还有云原生架构的应用导致系统复杂度越来越高,传统运维方式已经无法满足企业的需求,因此,借助AI技术能力实现运维智能化,提高运维效率和运维质量,成为IT运维的必然趋势。现在,IT运维的发展正处于螺旋式的上升期,根据Gartner预测未来3-5年内,可观测的智能运维能够达到成熟期。
不过国内AIOps的落地实践也面临着挑战从0搭建大规模aiops:不切实际的期望,AIOps的技术还不是完全成熟。
收起搭建一套AIOps运维平台需要掌握以下技能和知识:
在学习过程中,可以参考一些优秀的开源项目,如OpenAI、OpenStack、Kubernetes等。此外,还可以参考一些优秀的书籍和教程,如《Python编程从入门到实践》、《Docker入门与实践》、《Kubernetes权威指南》等。
在实际搭建过程中,可以采用以下步骤:
需要注意的是,搭建一套AIOps运维平台需要耗费大量的时间和精力,需要具备一定的技术能力和经验。因此,建议在实际操作前,先进行充分的学习和准备,可以参加相关的培训课程或者寻求专业人士的帮助。