郑金辉
作者郑金辉·2023-07-25 11:17
技术总监·某公司

四谈智能运维:万丈高楼平地起

字数 1333阅读 602评论 0赞 4

前阵子通过云课堂的方式跟同事们分享了我对AIOps的一些理解和认识,本来以为感兴趣的人不会很多,没想到反响还不错,不少人私信问我一些问题。这几天结合大家的问题,我做了一些总结和思考,整理如下:

一、AIOps是必须的吗?

从大的趋势上来讲,IT运维跟IT的整体发展,跟云计算大数据等技术的发展趋势是相呼应的,也就是说IT运维不可能孤立存在。我认为AIOps是否必要,是一个比较个性化的问题,需要结合自己的实际情况来考虑。重点有几个因素,IT规模、运维标准化和成熟度、IT对业务的价值体现、运维体系和团队等等都关系非常大。AIOps不是必须的,但是AIOps跟企信IT是什么关系确实必须考虑的。

二、厘清一些概念,自动化运维不等于AIOps

有不少人会把自动化运维和AIOps划等号,这是在是大为不妥。我们一般认为,全链路和全要素监控是我们运维的基础,也就是说可视化是基础。自动化是重点关注资源管理、应用管理、故障应急、日常变更等场景,也就是说自动化的前提是标准化,重点是流程和服务的标注化,如果能设计成标准流程,那自动化就可以发挥价值,如果不能那只能通过工单解决。自动化上层是流程编排入口,中间自动化运维平台的互操作层,对系统进行止损和修复等操作,下层是运维对象。可以看出来自动化运维是个执行机构,不是一个思考和决策机构,无法做到根因分析、无法去做预测和决策。自动化运维是AIOps的一部分,是包含与被包含的关系。

三、其实可以把AIOps比喻成一个人

怎么形容AIOps的整体架构呢,我觉得用一个人来比喻比较恰当,监控系统是AIOps的眼睛,用来发现问题;自动化运维是手,用来执行和操作;AIOps的核心层,是大脑,用于思考和决策;还有一个小东西,就是容易被忽略的CMDB,是啥呢,是心脏咋样,没了他AIOps就完蛋了。

四、一些建议和想法

1、需求是关键,场景很重要:

我们反复关注的应该是场景和需求,场景化的需求,把用户的需求和痛点,抽象成若干个场景,说白了就是用户解决什么问题,我们始终应该坚持问题导向。

2、与其忙着排障,不如加固城防:

兵法云:不战而屈人之兵善之善者也。再完善的运维系统也替代不了高可用的架构设计,高可用设计是上策,故障应急是下策。我们应该做好系统的高可用设计,做好层与层之间的解耦,尽可能缩小故障域。

3、AIOps不是空中楼阁:

基础很重要,AIOps不可能一蹴而就,需要在指标可视化、流程标准化上下一些功夫,有了这些才好做下一步。自动化的前提是标准化,其实故障处理等应急场景很难标准化,过去对高端技术人员的依赖很重,那AIOps的机会和价值也在于此,借助AI和大数据手段实现从信息到知识跃迁,我们的目的也就达到了。可视化、自动化、智能化,一步步来,这其中还有标注化和服务化,是跟流程和体系相关的,需要协同考虑。

4、我们的机会在哪儿:

可视化是一个普遍认同也普遍关注的环节,这可以重视。另外,自动化运维平台和ITSM流程平台很多客户多一定的积累,这个需要结合客户的现状和需求适时推进,需要谨慎,是金矿还是泥潭不好说。做好了这两部分,AIOps就顺理成章了。如果具备条件,这几部分一起上也不是不可以,关键是场景。

重要问题说三遍,关键是场景、关键是场景、关键是场景。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

4

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广