如何从零基础搭建AIOps运维平台?

目前因为工作需要,目前希望搭建一套AIOps运维平台,零基础,难度可想而知,该如何搭建,又该学习哪些知识、有无可供参考的对象。

参与9

2同行回答

匿名用户匿名用户
AIOps,顾名思义是将AI赋能于IT运维管理。国际权威咨询机构Gartner在2016年的报告里首次提出AIOps的概念。传统的IT运维工作,大多是借助监控软件查看数据,并依赖运维人员的经验进行根因定位和排障。有了AI的加持后,可以借助AI算法提前发现数据中的异常,并通过数据串联锁定可能...显示全部

AIOps,顾名思义是将AI赋能于IT运维管理。国际权威咨询机构Gartner在2016年的报告里首次提出AIOps的概念。

传统的IT运维工作,大多是借助监控软件查看数据,并依赖运维人员的经验进行根因定位和排障。有了AI的加持后,可以借助AI算法提前发现数据中的异常,并通过数据串联锁定可能根因,大大缩短故障处理时间、提高运维效率。

经过多年来的发展,越来越多的大中型企业投入智能运维AIOps的部署,以应对企业数字化转型带来的数据量暴增、系统架构复杂带来的运维挑战。

IT运维管理面临着两难境地的巨大挑战,一方面要降低成本,另一方面其复杂度又不断攀升。主要体现在数据量巨大、数据类型繁多和数据生成速度快三个维度:

IT基础架构和应用程序产生的数据量快速增长(年增长2-3倍)

机器和人工生成的数据类型越来越多(例如指标、日志、网络数据和知识管理文档)

由于采用了云架构和其他临时性的架构,数据生成速度不断提高,IT架构内变化速率也在提高

鉴于现代企业所需的洞察力,对这三个维度进行权衡的代价将相当巨大。因此,越来越多的客户对AIOps越来越感兴趣,并想通过大数据和机器学习技术来分析服务台的有效性,以此参与到故障和问题解决流程中去。IT组织还开始在DevOps环境中探索AIOps,将其作为持续集成/持续交付(CI/CD)周期的一部分,便于在部署之前预测潜在的问题,并检测潜在的安全问题。

AIOps分析的应用超越了其最初的使用范围,而成为IT运维中事件关联和分析的最佳解决方案。

AIOps,也就是基于 算法 的 IT 运维(Algorithmic IT Operations),是由 Gartner 定义的新类别,源自业界之前所说的 ITOA(IT Operations and Analytics)。我们已经到达了这样的一个时代,数据科学和算法正在被用于自动化传统的 IT 运维任务和流程。算法被集成到工具里,帮助企业进一步简化运维工作,把人类从耗时又容易出错的流程中解放出来。人们不再需要在遗留的管理系统中定义和管理无穷无尽的规则和过滤器。

从未来发展趋势来看从0搭建大规模aiops,ITOA、AIOps会是未来增长最快从0搭建大规模aiops的两个方向。随着以数据为核心的运维分析出现,运维市场逐渐由ITOM演变成ITOA(IT Operations Analytics),后来又提出了智能化运维(AIOps)。尽管目前肯定还是ITOM占市场的主体,但随着企业数字化转型的快速发展,IT系统数量快速增长,还有云原生架构的应用导致系统复杂度越来越高,传统运维方式已经无法满足企业的需求,因此,借助AI技术能力实现运维智能化,提高运维效率和运维质量,成为IT运维的必然趋势。现在,IT运维的发展正处于螺旋式的上升期,根据Gartner预测未来3-5年内,可观测的智能运维能够达到成熟期。

不过国内AIOps的落地实践也面临着挑战从0搭建大规模aiops:不切实际的期望,AIOps的技术还不是完全成熟。

收起
事业单位 · 2023-02-12
浏览764
victoryleevictorylee软件开发工程师浪潮商用机器有限公司
AIOps涉及大数据处理、模型设计与训练,然后才能使用模型来做预测,可以自己学习其中涉及的相关技术,也可以引入第三方厂商,选择一些场景来实施。显示全部

AIOps涉及大数据处理、模型设计与训练,然后才能使用模型来做预测,可以自己学习其中涉及的相关技术,也可以引入第三方厂商,选择一些场景来实施。

收起
互联网服务 · 2023-03-31
浏览648

ChatGPT 回答

搭建一套AIOps运维平台需要掌握以下技能和知识:

  1. 了解基本的云计算和虚拟化技术,如Docker、Kubernetes等。
  2. 掌握自动化运维工具,如Ansible、Puppet、SaltStack等。
  3. 熟悉日志分析和监控工具,如ELK、Prometheus、Grafana等。
  4. 学习机器学习和数据挖掘技术,了解常用的算法和框架,如TensorFlow、Scikit-learn等。
  5. 熟悉编程语言,如Python、Java等。

在学习过程中,可以参考一些优秀的开源项目,如OpenAI、OpenStack、Kubernetes等。此外,还可以参考一些优秀的书籍和教程,如《Python编程从入门到实践》、《Docker入门与实践》、《Kubernetes权威指南》等。

在实际搭建过程中,可以采用以下步骤:

  1. 确定需求和目标,明确平台的功能和特点。
  2. 选择合适的技术栈和工具,根据需求和目标进行调研和评估。
  3. 设计架构和流程,包括数据采集、数据处理、模型训练和预测等。
  4. 实现和测试,包括代码编写、环境部署、测试和优化等。
  5. 部署和维护,包括平台的部署、监控和维护等。

需要注意的是,搭建一套AIOps运维平台需要耗费大量的时间和精力,需要具备一定的技术能力和经验。因此,建议在实际操作前,先进行充分的学习和准备,可以参加相关的培训课程或者寻求专业人士的帮助。

提问者

shlei6067
数据库管理员NJ
擅长领域: 数据库服务器国产数据库

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2023-02-11
  • 关注会员:3 人
  • 问题浏览:1346
  • 最近回答:2023-03-31
  • X社区推广