faye
作者faye·2016-09-21 18:06
软件开发工程师·ABC

自动化管控技术在银行IT营运方面的应用

字数 3429阅读 1583评论 0赞 0

作者:兴业银行广州分行信息科技部 付昌林 陈恒

  IT资源规模急剧膨胀、风险防控要求日益提高的现实面前,传统的银行IT营运及风险控制方式愈发力不从心。日常运维中,IT部门传统的手工或半手工运营模式,消耗了大量人力、物力,效果却并不好;在IT风控方面,监管要求的指标细节缺乏有效的落地途径、事前风险预防作用有限、事中流程控制和实时告警等自动化手段缺乏及事后的事件记录、知识积累及考核机制不完善。

  为了满足服务质量提升、风险防控、监督管理、自动化实现等方面的需求,兴业银行广州分行运用包括监管发文和要求(如广东银监局下发的《广东银行业金融机构信息科技运行监控指标体系》对监控范围、指标分类、参考阀值均有非常明确的规范指导)、总行规范指导、ITIL及ISO20000、“高内聚、松耦合”的思想架构原则等在内的方法论,从整体出发,用体系化、平台化的方法研发并运行了自动化管控平台。

三大管控技术

  1.流程驱动

  将日常运营中的IT服务热线、软硬件告警、故障处理、系统健康检查、按风控管理要求自动生成的待办任务等都统一视为事件,改变目前问题的处理完全依赖于个人自觉性与责任心的状况,改为采用流程驱动的理念来实现,不再仅凭借个人能力,而是让大家都成为流程的一环。

  2.自动督导

  对所有事件都赋予紧急程度,给予不同的处理时限,需在预定的时间内完成,否则系统会进行自动督导。

  3.自动化

  将日常工作中重复性、常规性的工作用自动化手段来实现,利用科技手段减轻工作量,如机房的日常巡检、系统健康检查、运行登记簿记录、统计分析工作等。

技术架构及实现

  如图1所示,基于三大管控技术,我们规划设计了自动化管控平台的技术架构,主要由以下模块组成。

1-1.jpg
图1 自动化管控平台的技术架构图

  1.总控模块

  这一模块使用“流程驱动”技术思想来实现,它是自动化管控平台的“大脑”,负责整个系统的总调度,技术实现的主要原则如下:

  松耦合:借鉴全国金卡系统的设计理念,总控与具体监控对象无关,总控与监控对象Agent之间松耦合,仅完成信息转发功能,并不对监控信息内容进行逻辑分析和判断。基于这种松耦合性,它支持Agent使用任意开发工具与语言,只需遵循统一的通信接口与报文格式即可,实现新监控对象简单、快速接入,仅需在主控上登记新增监控对象的监控指标要素即可。

  流程驱动:所有事件通过Agent以报文方式发送给总控,总控解析报文后,生成事件,启动事件流程,记录和维护事件每一步的处理内容、处理过程、处理状态等。

  双向通信:总控通过Tcp/ipScoket通讯方式与Agent双向通信。在被动接收上,负责接收、处理、回应所有Agent上送的报文;在主动发起上,支持向指定的Agent发起报文请求,索取该Agent对应的母系统部分或者全部监控指标信息。

  总控模块在管控内容方面,主要实现对事件的流程化驱动,掌控从报文处理、事件生成、事件启动到流程处理的整个过程;对Agent接入管理,监控对象的增减、监控指标登记维护等。

  实现效果方面,模块实现了被监控对象Agent的快速接入,利于推广使用;无需参与监控对象内复杂的逻辑判断,运行效率较高;提供了公共统一的接口,各监控对象的Agent可采用任何开发语言和工具开发,只要遵循接口报文规范即可。

  2.Agent模块
  
  这一模块使用“自动化”技术思想来实现。Agent是部署在被监控对象上的代理程序,或者通过间接方式与被监控对象关联并获取监控信息的程序。其技术实现要点如下。

  紧耦合:Agent应尽可能与母系统紧耦合,尽量能够直接、及时、准确地检测到指标结果,其实现必须是轻量级程序,以满足不对母系统上应用程序产生任何影响为前提。

  自动化:主要实现Agent自动对母系统不断进行健康体检,定时或实时采集检测信息,将检测结果与阀值比较正常与否,再上送正常状态信息或发送异常告警给主控模块,针对告警报文,主控立即自动生成告警事件;自动实现对日常工作的检查,系统运行簿自动生成等。

  Agent模块在管控内容上主要实现了两个方面的自动化。一是对IT设施的自动化巡检。基本达到了对IT软硬件、基础设施、机房环境、安全设施等的全覆盖自动化监控,通过Agent对IT设施进行实时监控,并实时将结果报送到总控模块。二是对日常工作的自动化管理。将日常中惯例性、重复性的工作任务事件化(如机房巡检、系统检查、运行登记簿记录等),事件流程化,流程有督办,确保日常工作的及时性、合规性,提供自动化的事件报表统计分析功能。

  模块实现了两方面效果:一是值班Agent的接入上线,实现了对所有IT服务热线的侦听,自动记录每一个来电事件,确保每一个用户需求都不会被遗漏,极大提高了用户体验。它主要实现了每一个来电全程自动录音,同时将来电与通讯录智能匹配,可随时查看点击播,确保服务质量;多路模拟中继线路模式,支持多人同时值班、座机和手机灵活转接,对来电实行轮询分配,保证对人力资源的合理调度;对所有来电状态进行记录,要求事后主动给用户回拨;来电自动生成事件,由流程驱动,超时有督办,确保事件被及时有效地办理。二是通过有效途径将银监下发的《广东银行业金融机构信息科技运行监控指标体系》指导要求真正落地,能够在故障初期及时发现苗头,在亚健康状态时暴露隐患,能够及时采取补救措施,防范于未然。在故障问题发生时,能得到第一时间通知,尽快处理。

1-2.jpg
表1 Agent主要种类

  3.自动督导

  这一模块使用“自动督导”技术思想来实现。主要实现两个原则:一是松耦合,自动督导是一个独立的模块,与总控之间是松耦合关系,总控启动事件后,由自动督导模块来统计进行督导管理;二是抓落实,如图2所示,引入“紧急程度”和“预警级别”概念,不同的紧急程度给予不同的处理时限、升级阀值,不同的预警级别发送给不同的对象集;事件生成后立即自动进入督导状态,根据紧急程度得到不同的处理时限,超过升级阀值后,事件自动升级,并根据预警级别发送告警信息给对应的对象集。

1-3.jpg
图2 平台预警级别和紧急程度

  在自动督导模块内,每个事件从生命初始就开始被督导,被流程化驱动。自动督导模块确保每一个事件都正在被有效的处理中,当发生超时未办理的情况,能够及时提醒,有效督促。

  模块确保所有事件不会被遗漏、敷衍、拖延,有效防范了工作中的懈怠、拖延及遗忘,对于疑难杂症能够及时得到上级领导的协调和更多资源的调动。

  4.其他模块

  信息交换模块:实现短信和微信的收发、信息交互、队列管理、优先级管理、信息数据保存、状态查询等功能。

  工作台模块:工作台是自动化管控平台的使用窗口,工作台与总控之间是C/S架构,主要实现签到签退管理、角色权限管理、事件办理、登记簿自动生成打印、统计分析、知识库管理,监控画面集中展示、查看、刷新监控指标值等。

应用成效与未来展望

  自动化管控平台在广州分行投入运行以来,极大地提升了整个IT运营水平及风险防控能力,科技管理迈上新台阶,在用户体验、实时掌控、风险防控、工作效率等方面都得到了提升:根据用户使用反馈,服务态度有很大改善、IT服务热线接通率提高了,被拖延、遗忘的情况基本被杜绝;对所有IT系统及设施进行全面监控,随时随地都在掌控之中;真正将监管部门对于IT风险防控的要求落到实处,提升了预警能力,加强了应急响应能力,如能够第一时间发现,并尽快处理数据库性能指标的告警、批处理步骤的出错;将过去手工或半手工的工作通过自动化手段来实现,减轻了日常重复工作量,提高工作效率,如运行登记簿自动生成、强大的监控手段减少了人工跑机房的次数;由过去被动投诉转变为主动作为,通过对值班和告警事件的统计分析,发现用户需求、系统不足之处,暴露出缺陷隐患及故障,定期召开运维分析会,制订完善方案,主动向开发科室提出运维建议函;在系统研发工作中,往往对功能性考虑较多,对运营、风险考虑较少,随着自动化管控平台的推广使用,目前已经反过来促使分行研发更多考虑运营和风险。并且在应用系统的整个开发生命周期中,将异常处理、健康体检当作一个重要的需求来实现,以原生实现的方式嵌入到整个研发过程中。

  未来,兴业银行广州分行考虑引入积分模型,对积分进行计量,探索建立工作量化考核模型,激发工作热情;丰富接入渠道多样性,除短信外引入微信、APP应用等;知识库的积累和完善,提升工作效率。

(文章来源:《金融电子化》杂志)

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广