郑金辉
作者郑金辉·2023-07-27 11:38
技术总监·某公司

智能运维前传:从ITOM到AIOps

字数 1183阅读 536评论 0赞 3

最近跟几个做自动化运维的人聊过一些关于运维的话题,我有了一些心得,记录下来,以供研讨。

众所周知,IT在技术和业务的双轮驱动下,在不归路上狂奔,丝毫没有减速的迹象。IT运维也变得前所未有的复杂,单纯的靠人工和工具的已经不能解决问题了,之后开始出现自动化运维工具,自动运维的概念也开始进入人们的视野,2016年Gartner正式提出了AIOps的理念,都说Gartner善于造概念,好像真是这么回事,都无力反驳[捂脸]。自动化运维以及AIOps等概念一经提出就受到业界关注,特别是AIOps,在AI热的加持下,这一概念很快就成为运维领域最热门的词汇之一。那到底从ITOM到AIOps这一路发生了什么呢?

一、传统运维手段的问题和局限

传统运维其实也一直在演进和发展,我们不能像痛打落水狗一样,在一个旧事物行将结束的时候一概否定,做人还是要厚道哈。我们的运维方式也是经过了一个发展的过程,从最初的基于人工的运维,到后来的基于工具和平台的监控式运维,再到叠加大数据手段的运维,再到现在涌现的AI包装下的智能运维,实现从人工到工具到自动到智能的一个演进。传统运维除了众所周知的问题,比如机制、体制、流程层面的缺乏,过于依赖核心人员,缺乏有效的信息处理工具等,关键是当前传统的 ITOM 工具往往缺乏分析能力,虽然也能实现运维数据的采集,但无法对这些数据所包含的信息进行洞察,更加无法将数据进行知识化的本质提升。

二、AIOps好在哪儿

Gartner 的解释还是挺长的,看起来让人觉得有点不耐烦,简单来说它把 AIOps 的概念从原本的基于大数据及算法,扩充为基于AI,期望通过大数据、机器学习及更多高级分析技术,提供具备主动性、人性化和可视化的能力,直接或间接地提升目前传统IT运维的能力,总结来说就是“监控、定位、预测”。AIOps 为IT运维提供了全新的管理思路。具体来说,监控是指通过监测手段发现异常,及时告警;定位是指准确的定位故障位置,对于自动恢复还是别报太大希望,不过至少可以留个愿景;预测,这个提法不太好理解,我觉得应该是对业务运行基线的智能预测,比如过去只能手工指定服务器的响应阈值是100ms,现在可以基于监控数据和对业务的深度钻取,可以自动判断,可以沿着业务运行轨迹自动发展异常警告。

此外还有厂家总说,AIOps是帮助企业IT从运维走向运营的关键。这话原本也没错,只是有点拉大旗扯虎皮的意思,AIOps的确可以对IT系统进行预警和预测,辅助决策,从而为企业的IT管理从IT运维向IT运营转型提供帮助。但是IT从运维走向运营不是一个简单的事情,至少不是一个工具和平台能解决的,关键还是思想和观念的转变,得从自身出发让企业和IT的用户认识到IT的价值,认识到IT人的价值,认识到信息化的价值。

我们一向反对唯技术论和唯产品论,简单堆砌新技术和新产品,终究不是好的选择。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

3

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广