twt运营
作者twt运营联盟成员·2016-10-19 08:33
软件开发工程师·twt

浦发银行:基于全面风险控制的异地灾备系统接管

字数 3999阅读 3740评论 0赞 1

作者:浦发银行科技管理部总经理 奚力铭 科技管理部 王晖 张勇

为了充分发挥异地灾备资源利用效率,体现灾备系统平战结合的管理思想,努力实现上海、合肥两地“双中心交替运行”的管理目标,浦发银行在成功开展多次异地灾备系统真演实练的基础上,积极探索开展重要灾备系统长时间接管生产运行。

为不断提升信息系统灾难风险防范能力,浦发银行在原有同城灾备基础上启动了“小同城、大异地”模式的“两地三中心”灾备建设,并于2010年初步建成上海同城备份中心和合肥异地灾备中心。上海同城备份中心定位为数据级备份中心,提供部分重要系统数据级灾难恢复能力。合肥异地灾备中心定位为应用级灾备中心,提供重要系统异地应用级灾难恢复能力。为了充分发挥异地灾备资源利用效率,体现灾备系统平战结合的管理思想,努力实现上海、合肥两地“双中心交替运行”的管理目标,浦发银行在成功开展多次异地灾备系统真演实练的基础上,积极探索开展重要灾备系统长时间接管生产运行。

一、业务功能

在互联网+的时代,商业银行普遍面临着从产品为中心向客户为中心的转型压力,传统的烟囱式、紧耦合的系统架构正在向平台化、松耦合方向发展,业务交易处理逻辑、关联系统复杂程度等都发生了很大的变化。与灾备演练相比,异地灾备系统长时间真实接管业务运行的风险和难度更大,需要解决和满足以下方面要求。

1.全面的风险分析和管理

当前银行业务,特别是渠道类业务的运营高度依赖信息系统,可以说信息系统稳定运行一定程度上已成为银行发展和生存的关键。在灾备系统切换、接管和回切的各个环节,一旦发生意外情况,将对全行对外业务服务产生不可承受的影响,因此必须建立全面有效的风险管理和控制体系,严守系统平稳运行的底线。

2.有效降低异地通讯延时影响

上海生产中心与合肥灾备中心间直线距离超过400公里,中心之间存在一定的网络延时。部分系统切换至灾备中心运行后,复杂业务交易可能在上海、合肥两地之间往返多次,单个交易会话的延时会因此放大,可能会对业务交易产生比较明显的影响。因此要通过有效手段将网络延时对应用的影响控制在可接受范围内。

3.满足生产运行需要的运维管理体系

在灾备系统接管生产运行期间,上海生产中心和合肥灾备中心同时承担生产运行职能,迫切要求缩小和消除两个中心运维人员在知识技能、维护经验等方面存在的差距,在运维标准、运维制度、运维流程、运维工具等方面实现统一,构建一体化运维管理,实现跨地域运维的有效协同,保持高效可靠的运维管理能力。

二、技术架构

为了成功实现异地灾备系统真实接管业务运行,迈出灾备中心向生产中心转型发展的坚实步伐,浦发银行以全面风险控制为抓手,通过构建全过程风险分析机制、引入流程管理平台、优化应用处理机制、完善运维管理体系等手段,有效保障了灾备系统平稳接管运行。

1.全过程风险分析和处置

(1)全面关联关系识别。确定灾备接管所可能影响的系统和业务范围是开展风险分析工作的基础。在历次灾备演练经验积累的基础上,我们建立了“系统与业务”、“业务与业务”、“系统与系统”多维度关联关系识别方法。首先是通过接管系统来识别其所支撑的业务产品,即接管业务;其次是从业务关联性角度出发,分析与接管业务相关的业务,即关联业务;第三是通过数据和控制信息交换关系来梳理与接管系统相关的非接管系统,即关联系统;最后对关联系统和关联业务做相互对照避免遗漏,最终形成一张完整的关联关系分析视图,确保风险分析的对象无缺失。

(2)矩阵式风险影响分析。灾备系统接管运行是一个复杂的系统工程,为了实现风险分析的完整性,我们研究建立了二维矩阵式的风险影响分析方法。在时间维度上分为灾备切换、灾备接管和生产回切三个时间阶段,分别重点关注灾备系统可用性、协同运维和事件处理、数据完整性和生产系统可用性。在风险领域维度上分为技术、业务和管理三个方面。技术方面主要关注切换操作流程、配置一致性;业务方面主要关注业务影响和相应的业务应急处置预案;管理方面主要关注整体流程的控制和异常情况处理。以此为工具对关联关系视图进行全面风险影响分析(见图1)。

773401392780032421.jpg

                                                   图1 矩阵式风险分析示意

(3)动态化风险评估和处置。经过风险影响分析可得到灾备系统接管的所有风险点。我们按照分级、处置、评估、回顾四个阶段进行风险的动态管理,重点解决高、中风险问题。通过多轮动态的风险评估工作,及时发现新增风险,分析和控制残余风险,最大程度降低风险发生可能性和对业务的影响程度。

2.自动化指挥调度平台

以往灾备切换流程调度采取人工指挥的方式进行,通过电话、视频等方式由指挥部向参与人员逐条发布切换指令,并确认操作完成情况。人工指挥调度将耗用大量宝贵的计划内停机时间,对部分逻辑架构较复杂的系统也增加了指挥延误和错误、从而引发生产事故的可能。

为了解决在灾备切换和生产回切过程中可能产生的操作风险,我们建立了灾备切换指挥系统这一自动流程管理平台。在切换前将定稿的预案和手册导入到系统,实现切换过程中切换任务自动交互,实时向全体参与人员展示切换进度,有效避免传统指挥耗时长、难记录、易出错的问题。

该系统采用了多层结构设计,不同层级之间采用面向服务架构风格进行编排,不同层级之间均采用服务接口方式调用,模块之间具有松散耦合特性,确保整体架构的可维护与可升级特性(如图2所示)。在流程管理方面,利用FIex图形引擎推演灾备切换各项任务步骤,将灾备切换过程中指挥调度、人员协作、信息反馈等环节立体化和动态化地实时展现,大幅缩短指挥耗时,减少人为指挥风险,提高切换准确性。在系统功能方面,系统具有工作台(任务执行)、流程监控(进度展示)、流程管理(流程设计)、组织管理、预案管理等功能,全面满足灾备切换和灾难恢复日常管理需要。在系统组件方面,满足与邮件、短信、AD域集成功能,并且具备与自动化操作平台集成能力,可实现无人为操作的“一键切换”,极大提升灾备管理的自动化和智能化。

585480102848360174.jpg

3.针对性技术测试和应用逻辑优化

为了确保重要灾备系统异地接管圆满完成,我们对存储数据三点回传、生产灾备迂回通讯能力、网络延时对交易影响等技术难点进行了专项分析和处置。

在回切数据可靠性方面,在已成功开展数次灾备系统真实切换的基础上,专项开展存储数据三点回传测试,并验证三点架构任意两点通讯中断下的数据复制纠错和恢复机制,保障数据的一致性和准确性。

在网络性能和安全控制方面,由于灾备接管期间所有分行和总行业务部门都将通过上海生产中心迂回访问合肥灾备系统。为了评估大数据量长距离迂回传输对网络和应用性能的影响,避免生产和灾备中心之间不安全的网络访问,我们对计划接管系统的生产流量进行长时间连续监测,对灾备切换后的数据流向变化进行认真分析,对切换各过程中所有网络配置调整步骤进行逐一梳理和分析,确保接管期间网络正常通讯和有效隔离。

为了有效避免应用交易延时增加对业务运行和客户体验造成影响,我们深入研究应用处理机制,通过不同的手段努力降低影响。一方面是进行应用交易机制的改造,将原本多个串行处理的应用会话进行整合归并,减少一个交易的总会话数量,来达到降低整体等待时间的目的。另一方面是对应用批量调度方式进行优化,根据业务特点筛检业务运行期间待处理的总数据量,将批量处理耗时尽量保持在原有水平,对筛检后未处理的数据放到业务结束后运行,充分利用系统夜间的计算资源。

4.跨中心一体化运维管理

灾备系统长时间接管生产运行,不仅是对灾备系统性能、容量等方面的技术考验,更是对灾备系统运维和突发事件处置能力的全面检验。为了做好灾备系统长时间真实业务接管,我们在已有较为成熟的运维管理体系基础上,进一步研究建立了生产与灾备一体化运维体系,对运维标准、运维制度、运维流程、运维工具等方面进行了统一。

在运维流程方面,生产系统和灾备系统在事件、变更、配置、升级等方面都使用相同系统进行流程管理,并由相同小组进行调度和分配。例如生产和灾备系统纳入统一变更管理平台,针对每项变更申请由变更管理小组共同评估审核,确保生产和灾备同步变更。

在运维工具方面,在需求和设计阶阶段充分考虑统一运维、交替运行的目标,明确产品部署《管理的职责分工。如系统监控、备份等运维工具。数据中心和灾备中心采用相同产品、相同配置、独立部署、各自管理的使用策略来满足“双中心交替运行”的管理要求。如网络监控、统一账号管理等生产和灾备联系更紧密的运维工具,则集中部署在数据中心,根据维护分工建立不同的角色来满足统一运维的需要。

三、应用效果

借助完善的风险管控体系,2012年浦发银行核心业务、网上银行两个异地灾备系统首次成功接管全行业务运行19小时,系统运行平稳,交易处理正常,所有数据均完整回传至生产中心,全面检验了“小同城、大异地”灾备架构的有效性。

以此为基础,浦发银行异地灾备系统长时间接管生产运行工作不断取得突破。2014年银基通、外汇宝和企业年金账管异地灾备系统连续接管业务运行长达半年以上。2015年核心业务灾备系统再次成功接管全行业务运行19小时,并首次在灾备中心开展核心业务系统部分夜间批量处理,全面真实地验证了异地灾备中心对外服务的能力。从2015年起,境内外币支付、支付密码和养老金账管等3个异地灾备系统启动了跨年度长期接管生产运行。未来合肥灾备中心将有更多系统承担生产运行任务,灾备中心生产服务作用将进一步显现,为提升灾备资源综合效能发挥重要作用。

文章来源:《金融电子化》杂志

转自:金融咨询网

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

1

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广