jason2006xu
作者jason2006xu·2024-03-07 19:20
技术经理·昆仑银行

银行业AIOps应用现状研究

字数 3791阅读 2202评论 7赞 4

1、背景

随着业务创新以及分布式架构、微服务、大数据、人工智能等技术演进,使得银行业IT运维面临软硬件数量激增、应用和架构复杂化、变更频繁、调用链显著增长、运维数据井喷等困难和挑战。

运维技术在各行各业的重要性越来越高,特别在商业银行使用更广、更深,由于商业银行数字化程度越来越高、系统规模越来越大、组件监控粒度越来越细、监控数据量越来越大以及新技术和新组件的不断引入,这些导致运维越来越难做,运维工程师也被海量高速的运维监控数据所淹没。

2、为什么需要AIOps?

AIOps是基于海量数据的采集与治理(数据化)、AI算法的深度应用(智能化)和端到端的自动化打造平台化的智能运维目标,实现全景监控与自动化、智能分析与决策、故障自愈与无人值守。AIOps的优势是有利于知识和经验的积累。在智能运维体系中,运维人员在角色转变的同时也实现了技能提升,从最初的人工运维,到部分自动化+数据分析,实现数据驱动的IT运维,最终走向高度数据化、高度AI下的完全自动化+运维专家模式。

随着新质生产力的发展、数字化转型的持续推进,现代数字业务需要监控和管理的系统变得更加复杂、更加分散,需要AIOps 工具来实现跨 IT堆栈的持续洞察,同时这种洞察力变得越来越重要。随着商业银行数字化转型的加速,IT系统产生的运维数据量呈现爆炸式增长,传统的运维方式难以应对海量数据的处理和分析,需要AIOps利用人工智能技术对数据进行自动化分析和处理,提高运维效率;现代IT环境由云化、容器化、微服务等多种技术构成,系统复杂性大幅增加,AIOps通过智能算法和机器学习技术,能够更好地识别和管理这种复杂性;AIOps可以自动关联和分析来自不同来源的事件,快速定位故障原因,同时,通过对历史数据的学习,AIOps能够预测系统潜在的问题,实现主动预防;AIOps可以实现故障的自动化响应和处理,减少人工介入,缩短故障恢复时间(MTTR),提高系统的稳定性和可用性。总之,AIOps的引入对于应对当前IT运维挑战、提高运维质量和效率、降低成本以及支持商业银行的数字化战略具有重要性和必要性。

3、 同业AIOps建设情况调研

以下是针对根据已发信息,针对体量巨大的家大型银行AIOPS建设情况进行了信息整理,包括建设背景、平台建设、平台建设、应用场景以及运维生态等,详情如下:

智能运维建设情况运维组件运维数据运维生态
某大银行1建设背景:2019年起,运营中心践行金融科技战略,以项目群的方式启动了智能运维体系建设,目前主要是在数据中心私有云平台重点投入建设,包括在创新处以及应用处两个部门进行推广。公有云平台目前正在规划智能运维的建设,以龙舟云运维智能化方向为主。平台建设:建设数据平台及算法平台,加强数据采控及集中管理能力,夯实数字化底座。场景建设:以运维数据为基础,实现指标异常检测、日志异常检测、精准告警等基础运维数据分析场景,同时结合业务实现业务健康监测、业务影响分析等综合场景,初步建成了具体感知力、控制力、决策力的企业级智能运维体系。运维组件平台化 集中采控 精细化自动运维场景龙舟运维大数据平台搭平台、做场景 运维工具生态与运维生态并存
某大银行2建设背景:建设全行统一的“运维数据分析平台”,形成容纳海量运维数据的运维数据集市,解决运维数据存储不集中、数据不规范等问题;构建全行运维数据统一分析平台,推进运维数据应用的深度和广度,实践智能监控、智能运维等AIOps分析场景,为信息系统建设战略提供决策依据,为该行信息化转型提供动力。平台建设:建立统一的运维数据集市,集中采集运维数据入库,对数据模型统一管理,并进行数据的标准化治理。应用分析场景建设:以运维数据为核心,打通一体化生产运维平台体系内的关联系统,如监控平台、操作平台、管理平台、统一门户和配置中心,建设智能分析应用场景,包括异常检测、性能分析、趋势分析、故障诊断以及系统画像等场景。已构建统一采控支撑其运维中台 尝试流计算实现监控性能瓶颈 加速丰富配置消费场景已建立持续运维数据治理策略2018年筹划运维服务一体化能力建设,建立运维场景应用生态 ,2019年10月由科技与产品管理局牵头启动一体化生产运维平台体系建设工程 需求场景化,2020年全年上线了22个大运维场景 通过场景建设,逐步实现“5分钟异常发现、10分钟故障定位、20分钟异常恢复”的目标
某大银行3建设背景:从智能监控的场景开始探索智能运维体系的建设,从传统数据平台到具备实时处理能力的运维大数据平台转型,拉通融合运维管理工具,从整个智能运维体系的建设上实现平台一体化、数据标准化、场景自主化以及运维智能化。整个运维模式实现了从人工、割裂到智能、自动一体的质的转变。平台建设:数据平台的搭建基于华为大数据平台,先后经历了从偏事后分析、报表分析到可实时处理、实时监控预测的运维大数据建设;同步开展运维数据的治理工作,尤其日志平台进行了非常规范化的治理,实现了跨运维、生产、安全、运营等部门全行级数据服务。场景建设:以监控系统智能化、日志系统标准化、规范化为建设初发点,逐渐开展运维数据中心的智能运维分析场景建设。基于业务运维需求从发现问题、定位问题、解决问题的不同环节全面智能化。目前正在建设可观测的全行一体化智能运维平台。 已建立运维大数据平台,并完成初步数据治理目前已完成智能运维3.0的建设,正在全面建设可观性的统一智能运维管理平台
某股份制银行建设背景:智能运维的建设源于信创国产化,最早是为了替换Splunk数据分析平台。从17年开始逐步建立运维大数据平台,实现数据清洗及规范化,提升数据查询及实时数据处理能力,为智能运维打下数据基础。专注业务运营分析,建立业务分析模型,通过关联运维数据,为业务整体运营实现实时的运营决策支持。平台及场景建设:打通20多套运维管理工具,建立运维数据中台,实现日志分析与展现、交易特征分析、系统画像、运维内控分析等场景。20年至今在持续治理运维数据,构建支持多中心运行的数据中台,以应用为核心拉通运维数据关联,实时关注业务运维及健康、同时还进行了运营管理、系统健康状态、业务连续性等场景的建设。 始终关注业务,建立业务全方位画像,运维场景持续优化不断改进

根据以上四家银行智能运维建设的思路及路线,总结一下 智能运维建设大体可分三个阶段 : 第一阶段为准备阶段,完成平台搭建、数据治理等基础工作;第二阶段面向应用,梳理业务场景,分析哪些场景可以自动化、如何与算法相结合等 ; 第三阶段是进一步的发展建设,能够实现智能决策和故障自愈。

4、AIOps应用综述

1)自动化运维

以变更为例,端到端自动化运维流程包括:屏蔽告警->关闭中间件->下发升级文件->备份数据库->升级中间件->开启中间件->更新CMDB->告警屏蔽解除。自动化运维
在提高运维效率、减轻运维人员工作量的同时也带来自动化工具失效的风险,需要制定相应的应对策略。

2)基于算法的智能运维

智能运维基于平台化理念,将智能运维算法服务嵌入PaaS,对外以容器的方式支撑上层的不同场景应用,底层为数据交互层,通过机器学习和模型训练进行参数调优。最终呈现的场景是,不同的应用对应不同的容器,算法、参数等打包在容器中。交易期间和非交易期间采取不同的运维方案,进行周期性检测。这种算法的好处是即便数据缺失不全,也可以基于海量历史数据进行训练和回归,从而有效捕捉故障点。在单指标异常检测的实例中,通常有两种情况,一种是对系统进行压力测试,引发系统流量突增;另一种是因系统故障引发的流量陡增或陡降,通过智能算法对系统的流量相关指标分析可以快速、准确判断出导致指标异常的原因并捕捉故障点。

3) 基于CMDB的智能运维管理

CMDB主要功能包括收集信息、分析问题、解决问题。

A、收集信息:通过CMDB运维管理平台收集相关信息,包括服务器、应用程序、网络设备等的配置信息、性能指标、日志等。这些信息可以帮助您更好地了解问题的根源。
B、分析问题:根据收集到的信息进行分析,找出可能的原因和解决方案。例如,如果发现某个服务器的CPU使用率过高,可能是由于某个应用程序占用了大量的资源导致的。此时可以尝试优化该应用程序或者调整服务器的配置来解决问题。
C、解决问题:根据分析结果采取相应的措施来解决问题。例如,可以对应用程序进行优化或者调整服务器的配置来解决问题。
D、此外CMDB还可以用于应用系统的配置管理,存储与管理IT架构中设备的各种配置信息,通过识别、控制、维护,检查各种IT资源,从而高效控制与管理不断变化的IT基础架 构与IT服务,并为其它流程,例如事故管理、问题管理、变更管理、发布管理等流程。

5、综述

综上所述,目前商业银行的AIOps建设基本是以监控系统智能化、日志系统标准化、规范化为建设出发点,逐渐开展运维数据中心的智能运维分析场景建设。建设智能分析应用场景,包括异常检测、性能分析、趋势分析、故障诊断以及系统画像等场景。 AIOps建设的前期工作主要是运维 数据治理、业务梳理 , 数据治理解决数据标准化、准确性的问题;业务梳理是实现业务全流程监控,问题智能定位、诊断的前提 。 另外,商业银行大部分 正在建设可观测的全行一体化智能运维平台。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

4

添加新评论7 条评论

jillmejillme课题专家组CIO某大型银行
2024-04-03 07:52
文章阐述了AIOPS的同业应用现状,以及AIOPS的应用综述,建议在应用场景和AIOPS构建方面,能有具体场景实例的解决方案,帮助读者进一步了解AIOPS与自动化运维在智能方向上的差异,提升和发展趋势。
朱向东朱向东课题专家组高级工程师某银行
2024-03-21 11:30
文章对银行业AIOps应用现状的深入分析,强调了AIOps在提升运维效率、降低成本、支持数字化战略方面的重要作用。同时,通过调研不同银行的AIOps建设情况,为银行业提供了宝贵的参考和启示。
搁浅沉默搁浅沉默研发工程师某股份银行
2024-03-21 10:43
很有质量的一篇文章,尤其是对于同业调研部分的内容,很有启发意义,希望后期继续有相关AIOps的介绍,甚至若能有已落地的场景或经验,便是再好不过了
三虎三虎联盟成员系统运维工程师中国邮政储蓄银行
2024-03-20 19:25
希望还能有下一篇详细的介绍AIops的技术应用细节,还能多学习了解一些AIops和传统运维工作的区分及提升点。
NetSecNetSec信息安全某银行
2024-03-20 10:47
作者调研的很详细,龙舟暴露了调研对象。本文结构清晰,紧贴当下技术发展趋势,借鉴性非常高。
Senko leeSenko lee课题专家组系统架构师江西裕民银行
2024-03-20 10:05
AIOps是当下运维技术发展的必然趋势,作者从同业调研、应用实践等方面分享了AIOps在商业银行的落地经验,借鉴可操作行非常强。
menglunyangmenglunyang课题专家组系统工程师中国银行
2024-03-20 09:43
文章的结构清晰,先是背景介绍,然后是AIOps的必要性分析,接着是同业建设情况调研,最后是AIOps应用综述。这种结构使得读者可以循序渐进地理解AIOps在银行业的应用,并且通过具体案例了解到AIOps的实际效果。
Ctrl+Enter 发表

本文隶属于专栏

趋势观点
本专栏的文章全部来自国内外行业或领域一线最强实践专家的深刻洞察,他们的分享如同为正在摸索前进的更多同行和企业带来一盏明灯。他们的观点也为企业迎接趋势挑战、克服各种困难提供了最好争议的标的。希望有更多一线最强实践专家加入趋势观点栏目,你们是推动中国企业IT应用最值得尊敬的人。

作者其他文章

相关文章

相关问题

相关资料

X社区推广