郑金辉
作者郑金辉·2023-07-26 11:19
技术总监·某公司

三谈智能运维:从自动化到智能

字数 1360阅读 526评论 0赞 2

这几天一直在思考关于运维的事情。接着上次的思路说,跟不少客户都聊过这些问题,普遍认同随着业务上云,基本上也宣告传统运维走向了末路,不是非得去做智能运维,而是没得选择,随着数据上云和应用的微服务化,情况更是这样。

一、运维的发展经历了哪些阶段

从ITOM厂商的认知和行业发展的必然规律上讲,基本上都把运维分成了四个阶段,手工运维、工具运维、平台运维和智能运维。

1、手工运维:主要是关注资源监控关注资源的运行状况,侧重于手工和脚本;

2、工具运维:开始使用工具替代手工作业,开始关注业务运行状况,但仍然属于自下而上;

3、平台运维:管理维度从设备和资源转向“业务”,开始“自上而下”的考虑运维的问题,推动流程的闭环,但核心还是事件和故障;

4、智能运维:从运维数据的维度提升业务价值,以大数据为基础,利用AI和机器学习算法对运维数据价值进行挖掘,强调问题的解决,最终实现价值的提升。

二、为什么是AIOps

1、又是Gartner

AIOps是gartner定义的概念,其实我也很纳闷儿为什么总是Gartner。 AIOps是一个以实现持续洞察和改进的目标,运用大数据和机器学习技术作为支撑的软件平台。按照Gartner的看法AIOps会增强或部分取代现有的IT运维流程和工具,包括可用性、性能监测、事件关联和分析、IT服务管理和自动化。AIOps重点关注运维数据全生命周期的管理和利用,从不同数据源的获取、海量运维数据的存储和处理以及基于AI和机器学习算法的数据分析。

2、数据,还是数据

这里面最终的要是就是数据,而现实情况不是没有数据,而是数据太多,又多又乱由无序,而且价值密度低。打开AIOps的技术栈可以看到,跟AI和大数据平台几乎没有什么区别,你几乎可以认为AIOps是大数据的一个场景化应用,当然我说的是技术栈!

1)实现全栈数据采集:

监控对象从Iaas层的动环、主机、网络、虚拟化、CMDB到中台层的数据、中间件、应用/微服务、应用代码覆盖范围比过去大了很多,采集内容也更丰富,除以前IaaS的采集呢绒以外,更多的增加了中台层的采集内容,比如单个服务的响应时间、错误率、吞吐,JVM状态、SQL执行情况、缓存命中率等等。采集方式也更多样化,比如日志采集、基础监控协议采集、网络流量采集、拨测、探针、SDK等等,反正就是很厉害。

2)海量运维数据的存储和处理:

这里更多的是大数据和数据中台的范畴,这里不细说了。

3)还有一个关键环节就是算法与分析:

常用的比如KPI异常检测、KPI关联分析、故障关联分析、调用链分析等等,具体算法不要问我,我也不懂。

3、AIOps吸引力在哪儿

从Gartner的解释来看, 总结来说就是“监控、定位、预测”。AIOps 为IT运维提供了全新的管理思路。具体来说,监控是指通过监测手段发现异常,及时告警;定位是指准确的定位故障位置,对于自动恢复还是别报太大希望,不过至少可以留个愿景;预测,这个提法不太好理解,我觉得应该是对业务运行基线的智能预测,比如过去只能手工指定服务器的响应阈值是100ms,现在可以基于监控数据和对业务的深度钻取,可以自动判断,可以沿着业务运行轨迹自动发展异常警告。

综上所述,现在专业厂商和行业普遍认为,AIOps的愿景是解决四个方面的问题:故障分析、根因分析、趋势预测和决策支撑。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

2

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广