稻草人wfg
作者稻草人wfg2022-09-05 10:11
技术主管, 内蒙农信

内蒙农信社基于国产高端全闪存的存储同城容灾建设实践

字数 4952阅读 4330评论 2赞 7

1 项目概述

1.1 项目背景

随着银行信息化程度在不断提高与完善,信息系统在金融行业的关键业务中承担的角色越来越重要的,保证业务连续性是信息系统建设的关键,业务系统的连续性和灾难保护的重要性也越来越突出。同时金融监管体制的不断健全,同城灾备、两地三中心以及多数据中心正在成为金融机构保障业务连续性的标配。正常情况下,主中心和备中心各司其职,当灾难发生,主数据中心不可用时,灾备数据中心可以快速恢复业务应用和数据,减轻灾难带给用户的损失。为此,内蒙古农信社在呼和浩特市建设同城灾备数据中心。

首先,对于内蒙古农信社的核心生产业务系统来说,稳定可靠是第一位的,业务不能中断,数据不能丢失,必须提供7×24小时连续业务;第二,随着移动互联网快速发展,在线交易快速增长,也要求联社的联机业务系统支持海量用户高并发访问,性能要求高,时延极致低;第三,监管趋严,故障后处罚严格,因此也对联社的业务连续性提出了高要求,对RTO和RPO的追求也越来越趋于极限0。

1.2 项目目标

内蒙古农信社灾备数据中心核心存储的建设以业务不能中断,数据不能丢失,必须提供7×24小时连续业务为前提,根据内蒙古农信社灾备数据中心建设的容灾指标要求、容灾技术的先进性和建设成本进行综合分析来构建一个符合当前业务发展要求的核心存储容灾系统。

1.3 行业趋势

为了充分利用灾备中心的软硬件资源,发挥灾备中心在灾难发生时接管业务、延续业务和双活运行的作用,金融机构数据中心的容灾架构主要经历了从基于主备模式(Active-Standby)的同城灾备或“两地三中心”建设,到生产/查询模式(Active-Query),再最终升级到双活模式(Active-Active)、多活模式的演进历程。

双活模式(Active-Active)是一种理想的双活架构,此模式要求主数据中心和备数据中心均可受理读写类型的应用请求,数据在主数据中心和备数据中心之间进行双向复制。

在存储层面,两个数据中心采用本地数据高可用及同城远程复制的容灾保护模式,通过本地数据中心内部署存储高可用,两套存储AA双活,同时对外提供服务,实现业务零中断,数据零丢失,保障核心业务7×24小时在线;在同城灾备中心,部署灾备存储阵列,与双活存储阵列建立异步远程复制,将双活镜像的存储阵列数据同步到同城灾备中心,保证同城灾备中心保留一个完整是数据副本。

1.4 核心存储技术方案设计原则

结合内蒙古自治区农村信用社联合社的业务发展要求,方案主要遵循以下原则进行设计:

  • 完整性
    从保障关键业务的视角,制定容灾策略和IT系统的容灾级别。
  • 稳定性
    存储容灾系统架构要尽量减小实施、运维和生产系统影响的潜在风险,通过冗余、高可用集群、应用与底层设备松耦合等特性,从硬件设备冗余、链路冗余、应用容错等方面充分保证整体系统的稳定性。
  • 先进性
    利用存储双活/同步复制的技术先进性,并与业务相结合,确保先进技术与模式应用的有效与适用。
  • 开放性
    采用业界主流的技术和品牌,充分融入行业生态,最大限度的保证资源池建设投资。
  • 经济性
    采用经过大规模商用实践检验的架构方案和软硬件产品选型,充分利用现有资源,保护已有投资。

2 核心存储建设方案

内蒙古农信社在同城灾备数据中心建设前的数据容灾方案是通过主备异地复制容灾的方案实现,在距离呼和浩特主生产中心几百公里外的北京农信银建设了异地灾备数据中心,这种容灾方式带来的RTO和RPO都是小时级以上的,不能够保证业务的7×24小时连续在线和数据零丢失的保护,因此内蒙古农信通过在呼和浩特建设同城双活数据中心,完善和加强业务系统和数据的容灾保护级别,为用户更可靠更安全的金融服务。

2.1 核心存储方案架构

两地三中心的容灾建设方式是当前金融行业容灾建设的最高配置和主流方案。通过建设距离相对较近的同城容灾数据中心可以实现数据几乎零丢失的数据保护,通过建设距离相对较远的异地容灾数据中心可实现远距离的数据保护,避免区域性的灾难导致银行业务系统无法恢复。

内蒙古农信社通过同城灾备数据中心的建设,实现同城数据中心间的业务和数据容灾。本次内蒙古农信社同城灾备中心的核心高端存储的整体建设方案架构如图所示:

项目建设采用四套华为OceanStor Dorado 18500 V6高端全闪存存储承载金桥数据中心和和林数据心的核心业务,在金桥数据中心以及和林数据中心分别放置两套华为OceanStor Dorado 18500 V6高端全闪存存储,在两个数据中心本地,两套华为OceanStor Dorado 18500 V6高端全闪存存储建设本地双活的高可用方案(上图示中的数据A或数据B),同时将数据通过存储远程复制的方式复制到同城的另一个数据中心的存储阵列(上图示中的数据副本A″或数据副本B″),同时在另一个数据中心的复制存储阵列上还可以将数据复制到第四台存储上(上图示中的数据副本A″″或数据副本B″″),形成数据四副本的数据保护方案,保护内蒙古自治区农村信用社联合社核心数据的极致高可用。

两个数据中心存储阵列的本地双活高可用方案采用华为OceanStor Dorado 18500 V6高端全闪存存储的AA(Active-Active)双活特性,两台存储设备上的LUN被虚拟化为一个虚拟的卷,主机写操作通过卷虚拟化镜像技术同时写入这两个存储设备,保持数据实时一致。其中任何一个存储设备故障,虚拟卷仍能提供正常的IO读写能力,主机业务不受影响。待存储设备恢复正常后,存储虚拟化设备将增量数据后台同步到修复的存储设备,整个过程对主机“透明”,不会影响主机业务。同时双活存储的数据通过远程复制特性传输到同城另一个数据中心的第三套和第四套存储阵列上,实现数据的四个数据副本的保护。

2.2 核心存储建设方案概述

内蒙古农信社同城灾备数据中心建设采用四套华为Dorado V6高端全闪存存储建设核心存储资源池,华为Dorado V6高端全闪存存储阵列采用国产智能处理器芯片鲲鹏920 ,为内蒙古农信社提供高安全、高性能、低时延、高可靠的存储服务。

华为Dorado V6高端全闪存存储阵列采用HyperMetro特性实现免网关的存储层AA双活,两套阵列组成双活集群,减少方案故障点,避免存储虚拟化网关的I/O性能瓶颈,同时通过FastWrite功能,将标准的1个写I/O 2次往返优化为1次往返,提升双活存储的写性能,实现本地高可靠。基于两套存储阵列实现Active-Active双活,两端阵列的双活LUN数据实时同步,且双端能够同时处理应用服务器的I/O读写请求,面向应用服务器提供无差异的Active-Active并行访问能力。当任何一台存储阵列故障时,业务自动无缝切换到对端存储访问,业务访问不中断。

华为Dorado V6高端全闪存存储阵列本地双活的实现机制是免网关双活,无需额外部署虚拟化网关设备,直接使用两套存储阵列组成跨站点集群系统。相对于网关方案,减少网关故障点,提高方案可靠性;I/O响应速度更快,无需经过存储网关转发,减少网关转发I/O时延;同时为内蒙古自治区农村信用社联合社容灾数据中心建设节省了购买网关设备成本和重构存储网络的购买成本,仅需通过存储软件授权激活双活功能即可。

华为Dorado V6高端全闪存存储阵列支持丰富的三数据副本容灾的组网方式,可以用双活和异步复制(级联或者并联)组成数据三副本方案,包括以下三种组网方式:

  • 双活+异步 级联组网
  • 双活+异步 并联组网
  • 双活+异步 环形组网

华为Dorado V6高端全闪存存储阵列的远程复制支持跨阵列的数据同步、异步复制功能,应用于金桥和和林两个数据中心存储间的数据容灾解决方案,防止数据中心级别的灾难造成的数据丢失,提高业务连续性。

2.3 核心存储配置选择

内蒙古农信社高端全闪存存储的建设以高规格、高性能、高可靠为目标,保护核心关键业务的快速响应和业务连续性。在可靠性方面需要具备容忍控制器、接口卡、硬盘、电源等多种故障场景,保证关键应用的业务连续性。与中端存储相比,高端全闪存采用多控对称架构,避免存储在系统升级或者控制器故障时的单点运行状态,保证关键应用的业务连续性。高端存储架构应采用全对称的A-A控制器设计,LUN可通过任意一个控制器访问到应用服务器,而不是归属于某一个控制器,多个控制器之间通过负载均衡算法共同承载业务压力。一旦某个控制器发生故障,其他控制器可平滑接管业务,业务0中断。

本次内蒙古农信社的核心存储建设采用四台高端全闪存,单套全闪存存储配置四个控制器,采用NVME硬盘,存储前端接口采用32G FC端口,配置基础软件、双活及远程复制软件等特性。本地存储双活采用第三方仲裁服务器,防止出现脑裂。

2.4 部分容灾故障场景处理

3 核心存储容灾关键技术说明

3.1 本地高可用A-A架构

HyperMetro特性基于两套存储阵列实现AA(Active-Active)双活,两端阵列的双活LUN数据实时同步,且双端能够同时处理应用服务器的I/O读写请求,面向应用服务器提供无差异的AA并行访问能力。当任何一台磁盘阵列故障时,业务自动无缝切换到对端存储访问,业务访问不中断。

3.2 无网关双活

HyperMetro双活架构无需额外部署虚拟化网关设备,直接使用两套存储阵列组成集群系统。

本方案架构精简、与存储增值特性良好兼容,无网关双活的方案价值如下:

  • 减少网关故障点,提高方案可靠性。
  • I/O响应速度更快,无需经过存储网关转发,减少网关转发I/O时延。
  • 双活可以兼容存储阵列已有特性,与华为存储系统的其它特性组合,可为客户提供多种数据保护和灾备解决方案。
  • 显著降低双活组网复杂度,便于维护。

3.3 跨阵列坏块修复

硬盘在使用过程中可能因为掉电等异常情况出现坏块,如果是可修复错误但是本端已经无法修复时,HyperMetro将自动从远端阵列获取数据,修复本地数据盘的坏块,进一步提高系统的可靠性。

3.4 仲裁设计

当提供双活LUN的两套阵列之间的链路故障时,阵列已经无法实时镜像同步,此时只能由其中一套阵列继续提供服务。为了保证数据一致性,HyperMetro将通过仲裁机制决定由哪套存储继续提供服务。

HyperMetro支持按双活Pair或双活一致性组为单位进行仲裁。当多个双活Pair提供的业务相互依赖时,用户需要把这些双活Pair配置为一个双活一致性组。仲裁完成后,一个双活一致性组只会在其中一套存储阵列继续提供服务。例如,Oracle数据库的数据文件、日志文件可能分别存放在不同的LUN上,访问Oracle数据库的应用系统存放在另一些LUN上,相互之间存在依赖关系。配置双活时,建议将数据LUN、日志LUN和应用LUN分别配置双活pair,并且加入同一个一致性组。

HyperMetro提供了两种仲裁模式

  • 静态优先级模式
  • 仲裁服务器模式

仲裁服务器模式比静态优级模式具备更高的可靠性,可保证在各种单点故障场景下,业务连续运行。因此,本项目存储双活采用仲裁服务器模式。

4 项目收益

随着内蒙古农信在呼和浩特同城双活数据中心的投产上线,实现“两地三中心”的容灾体系建设,标志着内蒙古农信金融科技建设实现新跨越,容灾体系、新技术应用步入全国农信先进行列,具备“同城双活”和“异地容灾”能力,能够满足各类业务连续性需求,进一步赋能业务发展,为内蒙古农信高质量发展插上科技翅膀。内蒙古农信核心存储同城容灾建设的收益如下:

1)华为Dorado V6高端全闪存满足核心业务系统对于性能的要求,满足未来3~5年的内蒙古农信业务扩展及新业务快速上线的需求;
2)华为Dorado V6高端全闪存的控制器“四坏三”架构提升单存储可靠性,极大提升整体数据中心的业务可靠性;
3)华为Dorado V6高端全闪存基于A-A架构的双活,两端存储都支持数据读写,减少了年度容灾演练步骤,大幅缩短演练变更操作时间和步骤,同时可实现RPO=0、RTO≈0,高标准满足监管要求;
4)支持数据“四副本”的容灾方案部署,创新方案能力领先。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

7

添加新评论2 条评论

chenghchengh系统工程师, 某银行
4天前
请教下,灾备切换这块怎么操作的?有用自动化或者一键切换工具吗?
wanggengwanggeng系统运维工程师, 某银行
2022-11-21 17:03
两地三中心的容灾建设方式是当前金融行业容灾建设的最高配置和主流方案。通过同城灾备数据中心的建设,实现同城数据中心间的业务和数据容灾,给我们同行很好的参考建议,如果能把同城容灾实施的过程以及难点梳理出来就更好了,整体架构非常值得中小银行借鉴。
Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

核心存储选型优先顺序调查

发表您的选型观点,参与即得50金币。

作者其他文章

相关文章

相关问题

相关资料