dominiczidu
作者dominiczidu2021-03-17 09:40
存储架构师, 某银行

某银行 “两地三中心”容灾建设项目实践经验

字数 7647阅读 4950评论 1赞 6

1、背景

对于银行行业来说,随着数字化进程的推进,人们对于银行服务的需求日渐迫切,数据逐渐成为企业的运营核心,用户对承载数据的存储系统的稳定性要求也越来越高。虽然企业可以拥有稳定性极高的存储设备,但还是无法防止各种系统灾难的发生。一旦发生重要业务数据丢失或者业务系统停顿过长时间的事故,给银行带来巨大的经济和名誉损失。

可能引发系统灾难的因素包括:

  • 系统软、硬件故障,如:软、硬件缺陷、数据库或其他关键应用发生问题、病毒、通信障碍等;
  • 机房环境突发性事故,如:电源中断、建筑物倒塌、机房内火灾等;
  • 人为因素,如:因管理不完善或工作人员操作不当、人为蓄意破坏、暴力事件等;
  • 自然灾害:如火灾、地震、洪水等突发而且极具破坏性的事故。

为了保证数据的可靠性和可用性,同时能够应对各种系统灾难对数据的破坏,同城容灾中心结合异地容灾中心的“两地三中心”容灾解决方案越来越受到业界重视和认可。因此,“两地三中心”容灾方案的核心技术-3DC(Three Data Center)技术应运而生。

2、建设目标和范围

2.1、建设目标

信息系统发生系统灾难后,为降低灾难发生后造成的损失,需建设“两地三中心”的容灾架构。将主中心的业务数据及应用程序数据实时同步复制到同城容灾中心,然后再将数据异步复制到异地容灾中心,达到国家GB/T 20988-2007《信息系统灾难恢复规范》标准中灾难恢复能力等级第5级要求“实时数据传输及完整设备支持”,从而保证业务连续性。

具体建设目标:
1、建设同城双活应用级容灾系统和异地应用级容灾系统。
2、同城业务系统恢复时间目标(RTO)≤2小时,数据恢复点目标(RPO)≈0分钟,尽量保证数据不丢失。
3、异地业务系统恢复时间目标(RTO)≤4小时,数据恢复点目标(RPO)<15分钟,具备数据备份和数据补录机制。

同城容灾中心和异地容灾中作为主中心的备用中心,当主中心发生故障时,同城容灾中心和异地容灾中能够按照设定的优先级接管主中心的应用系统。同城容灾中心数据与主中心系统数据实时同步,确保提供交易服务业务安全和数据安全。异地容灾中心系统数据与主中心系统数据异步传输,确保在主备中心发生灾难的情况下,仍然可以保证业务的连续性。

  • 主中心和同城容灾中心采用数据同步双活技术,保护数据的完整性、一致性。
  • 主中心和异地容灾中心采用异步数据复制技术,使业务数据损失最少;
  • 在同城容灾中心、异地容灾中心部署和生产中心环境相近的完整设备,支持快速恢复业务系统运行,保持业务的连续性。

2.2、建设范围

1、业务系统建设范围

“两地三中心”容灾系统的建设范围主要以保障核心系统建设为主,非核心系统为辅。先完成对主要核心系统和紧耦合业务和数据的保护,再依据与核心系统的关联关系,逐步完成对其他松耦合系统的容灾保护。

2、基础设施建设范围

本期重点建设范围主要包括两个方面:

一是建立主中心和同城容灾中心核心业务系统的数据实时备份,实现同城双中心的存储双活,尽量保证数据不丢失。

二是建立同城中心和异地容灾中心核心业务系统的异步数据复制,最终实现“两地三中心”的数据保护架构,保证业务的连续性。

为了保证同城双活存储系统的有效性和可用性,主中心和同城容灾中心采用光纤链路连接,同城容灾中心机房与主中心生产机房的距离不超过50公里,链路响应时间控制在5ms以内。

3、建设方案

3.1、建设原则

“两地三中心”的容灾系统架构在设计与功能实现方面应遵循以下原则:

1.高可靠性
容灾系统建设遵循高可靠性原则,以确保灾难和重大事故发生后业务能够及时恢复,确保业务系统的数据安全和业务运行的连续性。

2.高安全性
容灾系统建设遵循高安全性原则,以确保灾难和重大事故发生后网络和信息系统能够安全运行,同时容灾系统的建设应满足信息安全的要求,不能造成生产系统数据的丢失和泄密。

3.可扩展性
需充分考虑与现有业务系统的衔接,充分考虑容灾范围扩大和容灾等级变更、虚拟化和云计算技术发展时系统的平滑过渡,同时需满足三至五年的信息化数据建设发展要求,保证将来的可扩展性。

4.良好的管理性和维护性
在“两地三中心”的架构设计中,容灾系统是一个复杂的系统,需要考虑可管理性和可维护性,便于系统管理员完成日常及应急时的管理和维护工作。

5.实用性和经济性
充分考虑可操作性、易使用性和实用性,为用户提供良好的操作环境。不仅要考虑到目前业务的实际需要,更应重视将来业务增长带来的规模扩大和应用的需求。

6.灵活性
支持各种业务系统不同的RTO和RPO需要。

7.通用性
支持不同操作系统、数据库、应用软件系统的部署需要。

8.高性能
容灾系统应满足预定RTO和RPO要求,保证数据的一致性和系统的可用性。保证满足RPO、RTO要求并能使其更优。

3.2、建设思路

金融行业信息系统容灾建设应按照“平战结合”的思路,遵循“容灾中心”高效能、低成本、全方位的建设原则,整体规划,分步实施,充分利用现有设备,实现同城数据双活和异地数据复制,整合信息资源,优化系统结构,实现统一的信息系统容灾体系。

考虑到金融行业IT系统的现状,同时结合金融业务系统多、数据量大等实际需求,遵循国家GB/T 20988-2007 《信息系统灾难恢复规范》5级标准要求,应首先确保核心系统数据实现在“两地三中心”容灾节点上实时复制,其次再按照应用级业务部署要求完成应急设备环境建设,最终实现金融核心业务系统的“两地三中心”部署架构。

整个系统建设完成后,同城双中心数据为双活架构,没有任何单点故障,任何设备故障均不会造成系统的长时间宕机和数据丢失。异地容灾中心将承担同城双中心的应急接管任务,由于距离限制,数据采用异步数据传输,保证数据丢失量(RPO)在15分钟以内。

3.3、技术路线

在“两地三中心”的容灾系统架构中,为了实现数据在三个数据中心之间的实时复制,主要依赖以下几个数据复制技术路线。
1、   基于数据库的数据复制技术
2、   基于SAN的数据复制技术
3、   基于智能存储的数据复制技术。

3.3.1   基于数据库的数据复制技术

基于数据库的数据复制技术主要通过数据库管理系统对数据更新操作的交易管理来实现。

利用开放系统上Oracle、Sybase、DB2等数据库系统自身的日志复制功能,在容灾中心建立用户业务系统数据库的备份数据库,通过数据通信网络,将用户数据库系统产生的归档日志实时传送到容灾中心,利用日志向备份数据库追加数据,保持备份数据与生产数据同步。

数据库复制是由数据库系统软件来实现数据库的远程复制和同步。基于数据库的复制方式可分为实时复制、定时复制和存储转发复制,并且在复制过程中,还有自动冲突检测和解决的手段,以保证数据一致性不受破坏。
基于数据库的数据复制技术架构

基于数据库的数据复制技术架构
 

1、基于数据库的数据复制技术这种方式的优点为:

  • 支持广域网
  • 不需要单独的硬件支持
  • 对存储系统透明
  • 无须修改应用程序
  • 主中心/容灾中心,数据可以被同时访问

2、基于数据库的数据复制技术这种方式的缺点为:

  • 备份中心的备份数据无法快速恢复回主中心
  • 无法实现非数据库数据的远程复制
  • 同步方式下数据复制性能较低,异步方式下会丢失较多数据,至少丢失一个日志文件
  • 回切流程复杂
  • 生产改造复杂

3.3.2   基于SAN网络的数据复制技术

基于SAN网络的数据复制技术是在前端应用服务器与后端存储系统之间的存储区域网络(SAN),加入一层智能型交换机,前端连接服务器主机,后端连接存储设备。旁路的控制方式,对于I/O流量进行旁路监控和分流,实现异地数据复制。

通过SAN网络的虚拟化技术,可以整合前端异构平台的服务器和后端不同品牌的存储设备。

1、基于SAN网络的数据复制技术这种方式的优点为:

  • 支持异构存储设备;
  • 实现虚拟化整合,实现统一管理,提高存储利用率;

 

2、基于SAN网络的数据复制技术这种方式的缺点为:

  • 复制设备多为linux机器;
  • 某些技术要改造SAN网络;
  • 可能需要改变原有SAN网络主机与存储连接绑定关系

1.1.1   基于智能存储的数据复制技术

基于智能存储的数据复制技术是利用磁盘系统自身的处理能力,通过磁盘系统之间的通道连接复制磁盘系统内的数据更新,从而在应急备份系统保存生产数据的记录。利用磁盘复制可以独立于服务器、操作系统、卷管理系统、数据库、文件系统、中间件、应用程序。磁盘阵列将磁盘镜象功能的处理负荷从主机转移到智能磁盘控制器—智能存储系统上。基于智能存储的数据复制由智能存储系统自身实现数据的远程复制和同步,即智能存储系统将对本系统中的存储器I/O操作Log复制到远端的存储系统中并执行,保证数据的一致性,支持同步与异步两种方式。

同步复制方式需要本地存储系统的写操作须等待远端的存储复制完毕才能结束,而且本地主机需要等待远端存储系统传来的写操作完毕信号。这种方式的优点是数据一直性强,但由于要等待反馈信号生产端性能受影响较大。

异步复制方式的特点是本地写操作会立即结束,而不等待远程复制操作结束,适合远距离数据复制传输。

1、基于智能存储的数据复制技术这种方式的优点为:

  • 数据复制对应用透明
  • 数据复制、备份过程不占用主机资源,保证大量数据的复制性能
  • 可以根据应用要求设定同步或异步数据复制,保证数据库的一致性,完整性。
  • 连接、复制功能故障不影响主机应用运行
  • 操作、控制简单,可随时建立或停止数据复制、备份功能案例较多

2、基于智能存储的数据复制技术这种方式的缺点为:

  • 主备中心必须为同构存储设备

3.3.4   技术路线对比分析

依据上述分析,通过参照业内成功案例与实现方式,从技术特点、同步/异步支持、同步方式下对广域网传输(带宽)需求、支持同步方式主备中心最远的距离、局限性、成熟度、相关产品对上述3种复制技术进行对比分析。

3.3.5   技术路线选型分析

金融行业的“两地三中心”容灾系统建设经历了多个发展阶段。早期金融行业业务单一,业务系统数量少,数据库种类不多,多直接通过基于数据库的方式实现特定环境下的数据容灾。现在大部分金融行业客户业务种类繁多,同时具备海量级的数据和多种数据库并存,采用基于数据库的方式实现数据容灾显然过于复杂和繁琐,实施和维护成本都比较高。目前主要采用的是基于SAN网络和基于存储的两种技术路线。

基于SAN网络的数据复制技术路线虽然可以异构存储设备、进行虚拟化整合、实现统一管理和提高存储利用率。但是部署基于SAN网络的数据复制需要增加SAN网关和存储虚拟化设备,可能需要改变原有存储系统和主机的对应关系,整体实施的停机时间窗口比较长,对于金融系统来说有些困难。

本期项目实施主要针对核心应用系统数据进行复制,所以采用基于智能存储的数据复制技术比较合适。而且数据复制、备份过程不占用主机资源,可以保证金融行业业务系统大量数据的复制性能、一致性和完整性。

结合金融行业的容灾需求,特别是RPO的要求,分析了各种数据复制技术,综合考虑基于智能存储的设备选型,并对各个主流存储厂商容灾技术的先进性、可靠性、本地化服务能力、本地化维护能力、行业领先性,建议采用华为公司基于OceanStor智能存储的容灾解决方案。

华为存储层双活方案基于OceanStor融合存储系统的HyperMetro特性实现。HyperMetro采用AA双活架构将两套存储阵列组成跨站点集群,实现数据实时镜像。两端阵列的双活LUN数据实时同步,且两端能够同时处理应用服务器的I/O读写请求,面向应用服务器提供无差异的AA并行访问能力。当任何一台磁盘阵列故障时,业务自动无缝切换到对端存储访问,业务访问不中断。

结合业界现有的技术和实施经验,以及我行的实际需求,我们采购了华为OceanStor18500F V5全闪存储,华为OceanStor 18000F V5系列是全新一代高端全闪存存储系统,为企业关键业务提供最高水平的数据服务。具备创新的高可靠SmartMatrix架构、更高的扩展性、全闪存设计的高性能以及面向混合云的演进方案,满足大型数据库OLTP/OLAP、云计算等各种应用的数据存储需求,广泛适用于政府、金融、运营商、制造等行业。

3.4、“两地三中心”方案设计

根据当前业务发展的需要确定了基于存储系统级的容容灾份方案,利用存储系统的远程复制功能将数据复制到同城容灾中心和异地容灾中心。

由于异地容灾机房处于建设中,目前可用的是同城双中心,所以我们对于以上架构稍微做了下改造,我们部署了3台OceanStor18500F V5,2台位于主数据中心,1台位于同城容灾中心。主数据中心2台OceanStor18500F V5做存储双活架构,承载核心数据库和核心业务,并配置异步远程复制通过光纤链路与容灾中心OceanStor18500F V5进行数据同步。如果主数据中心1台OceanStor18500F V5出现故障或者2台同时出现故障的情况下,可在不丢失数据或丢失少量数据的情况下进行灾难切换,保持业务连续运行。上线后相比原存储系统访问效率提升了50%,将核心业务数据从OceanStor18500F中远程复制到容灾中心OceanStor18500F,通过这种方式保证业务数据实时高可用,消除了之前重要数据无容灾保护措施的隐患。

3.5、“两地三中心”方案优势

通过基于华为OceanStor存储构建的 “两地三中心”容灾模式可以规避区域性灾难对银行数据的破坏,远程数据保护有效的提升了银行业务连续性。

同城双中心具备等同的业务处理能力,通过光纤链路和华为OceanStor存储数据复制技术实时同步数据。不但可以双中心同时部署业务运行,还可以在灾难情况下进行切换,并且保证数据不丢失,保持业务连续性。

异地灾备中心用于同城双中心的数据备份,当双中心出现自然灾害等原因而发生故障时,异地灾备中心可以用备份数据进行业务的恢复,进一步地保证了数据的安全性和业务连续性,并且将数据丢失机率降到最低。

主要优势总结如下:

1、同城双中心实时复制数据,数据丢失量由数分钟基本减少到0丢失。
2、异地中心对数据和业务进行有效保护,银行业务连续性相对于单中心运行可以提高至99.9%,在极特殊的区域性灾难情况下,业务也可以在2~4小时之内恢复运行。
3、同城双中心存储切换无需停止业务系统,不仅适合部署7*24小时连续运行的业务系统,还可以在故障恢复和主动运维等场景下进行存储切换运行,降低故障和运维管理成本50%以上。
4、基于现有银行系统存储网络架构进行改造,不需要改变现有系统架构,可以极大的降低系统改造及投入的硬件成本。
5、一旦主系统发生故障,由于同城中心和异地中心的存储系统一直处于运行状态,无需数据恢复阶段,仅需恢复业务系统即可,所以整个业务系统切换过程的速度非常快,相比其他容灾技术,可以减少30%的系统切换操作时间。
6、华为OceanStor存储提供统一的管理控制平台,可以实时监控数据复制状态,方便容灾管理,可以极大的减少容灾运维的工作量,有效提升容灾切换演练和应急切换的工作效率。

4、实施重点

4.1、方案实施技术关键点

在华为金融行业3DC解决方案中,实施的技术重点是同城双活+异地异步数据复制。

同城双活涉及到的关键实施技术包括:跨中心存储集群和故障不间断访问。

跨中心存储集群主要利用集群技术提供双活的存储架构,每个节点要以共享卷方式向应用服务器提供无差异的并行访问,同时处理应用服务器的I/O请求,要求在实施前做好详细的应用服务器共享卷使用规划,避免存储资源浪费和错误资源分配影响数据安全。

故障不间断访问可以保证存储各节点间互为备份,均衡负载,任何节点故障后,其承接的业务自动切换到正常节点,保证系统的可靠性、业务的连续性。故障不间断访问除了要做好存储设备的配置规划外,还需要对存储SAN网络和业务LAN网络进行规划,避免业务在发生故障迁移后由于网络问题无法访问相应的资源或者无法对外提供服务。

远程异步数据复制在实施过程中需要重点关注数据复制的状态,保证远程异步数据复制的可用性。数据复制状态主要包括以下几个方面:

需要在实施过程中时刻关注数据复制状态并及时进行修正。

4.2、容灾实施演练和应急预案

灾难恢复演练可以对基于华为OceanStor融合存储系统的HyperMetro容灾方案可行性进行验证,也是“两地三中心”容灾系统建设不可缺少的演练环节。可以验证出核心业务系统是否可以在短时间内切到容灾中心,接管真实业务,实现系统稳定运行。检验主中心和容灾中心系统是否能符合实际容灾需求,同时还可以有效的提高灾难恢复队伍的技能和技巧。

容灾演练离不开应急预案的支持,需要制定一个全面的、操作性极强的灾难恢复预案。灾难恢复预案的内容不仅包含IT灾难恢复方面的内容,还包括业务的持续运作计划,如灾难恢复组织、OceanStor存储的数据恢复、业务恢复和灾后数据回退等相关内容。

灾难恢复组织体系由总行信息系统灾难恢复领导组、执行组、保障组组成。领导组由总行分管信息科技的领导及办公室、财务、业务和各分行负责人组成,主要负责应急指挥和决策。执行组由总行信息技术部总经理和各部门派员组成,主要负责现场应急处置和IT业务恢复。保障组由总行信息技术部分管安全副总经理和各部门派员组成,主要负责应急支持保障工作。

关于是否需要进行容灾切换需要根据事件严重程度进行分级,依据事件评估的结果进行决策。如果达到容灾切换标准,那么就需要根据预案中关于OceanStor存储的数据恢复、业务恢复和灾后数据回退的相关技术操作内容按规范的步骤进行操作。

根据《银行业重要信息系统突发事件应急管理规范》,通常将影响我行信息系统的突发事件分为以下三级。分别是特别重大突发事件(一级)、重大突发事件(二级)和较大突发事件(三级)。对于一级事件需要灾难恢复领导组决策并宣告进行容灾切换。二级事件需要灾难恢复领导组进行预警决策,三级则不启动容灾切换。

5、方案总结

本文介绍了金融行业“两地三中心”解决方案的技术路线、架构以及容灾系统实施重点。

通过构建以华为OceanStor融合存储系统的HyperMetro特性实现的“两地三中心”架构,可以有效的保证金融行业的数据安全和业务连续行。同城双活中心数据基本可以实现0丢失,即使在面对极端的数据中心级灾难的情况下,核心业务系统也可以通过异地容灾中心在短时间内恢复运行。

由于华为全系列存储产品都采用统一的存储操作系统平台,高、中、低端阵列之间都可建立远程复制关系。我行在产品选型时,可以根据业务需要,选择匹配的同城、异地容灾中心存储设备,可以不受生产系统存储的制约,选择灵活性也比较大,避免同城和异地容灾中心过度投资,可以显著提升容灾建设投入产出比。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

6

添加新评论1 条评论

boney89boney89网络工程师, CXKJ
2021-05-31 21:03
谢谢分享,非常实用
Ctrl+Enter 发表