活动简介
近年来随着银监会《商业银行数据中心监管指引》和《商业银行业务连续性监管指引》等规范的陆续出台,监管部门对商业银行信息系统业务连续性管理提出了很高的要求,特别是要求定期开展灾备切换演练,而随着业务系统架构多样性及复杂性的不断提高,整个切换流程将变得越来越复杂,同时演练中对于流程控制的要求也变得越来越高。
银行在灾备建设中采用的是大同城小异地的两地三中心灾备方案,同城两个机房采用了网络大二层打通的技术,主要目的是实现同城应用双活和系统在任意机房运行,在灾备技术方面,由于行内新核心刚刚上线不久,因此没有采用对应用有改造需求的应用端双活技术,而数据库日志传输技术可能会导致数据丢失,灾难时无法保证RPO=0,因此我们在现有技术栈基础上,采用了改造和影响最少的存储复制技术,虽然在切换过程中需要激活灾备端的各种资源,会导致RTO时间较长,但是可以尽力保证RPO=0。
存储复制技术带来的灾备切换问题主要有:流程复杂,切换步骤多,逐层操作的IT模块多,切换时间长。因为银行业务特点和技术栈的原因,行业务系统数量非常多,而且使用了各种IT技术,存储方面有EMCSRDF/SWAP/STAR以及华为HyperReplication,数据库方面有DB2、ORACLE、MySQL、DB2 HADR、ORACLE RAC、MySQL MHA以及DB2 PureSacle GDPC、Oracle extendRAC等,操作系统方面包括Suse Linux、IBM AIX、HP Unix、Oracle Solaris以及相应的集群技术,中间件包括Weblogic、Tomcat、Apache、Nginx、ActiveMQ、IBM MQ等。日常灾备切换演练和真实灾备切换时间压力比较大。
灾备切换面临的主要问题除保证RPO的前提下尽量减小RTO外,还包括跨部门指挥协调问题、切换流程进度监控问题、以及众多流程的维护问题。灾备切换时要考虑如何解决这些问题,实现安全有序的灾备切换,这样就需要一款能自动化执行、对所有系统的切换流程可以指挥调度的平台。
因此,twt社区平台特别邀请了来自民生银行的灾备自动化的专家分享了:银行灾备自动化切换平台的实践经验分享,希望给大家一定的参考,借此机会希望和大家进行一次交流探讨。
交流嘉宾:
白东旭 12年加入中国民生银行信息科技部系统管理中心,负责x86服务器硬件选型与运维和操作系统运维。精通Linux,Windows,Aix操作系统管理,熟悉虚拟化,容器技术,掌握Python,Go等语言和Ansible等自动化运维工具,15年以来参与民生银行灾备平台建设与运维。
张永军,大连理工大学硕士研究生毕业,辗转于中科院计算所、HP,现任职于中国民生银行。多年工作在一线,运维老兵一枚,深谙运维压力与痛苦,致力于运维标准化、自动化、智能化。