zwz99999
作者zwz999992022-04-10 16:44
系统工程师, dcits

银行行业基于华为 OceanStor Dorado 18500 V6高端存储的两地三中心容灾解决方案设计

字数 8000阅读 3460评论 6赞 5

当前 , 在经济新常态的背景下 , 经济金融全球化趋势、信息科技的进步、互联网金融的发展对传统商业银行带来诸多挑战和深远影响 . 依托科技创新 , 助推转型升级 , 是传统商业银行积极应对挑战的战略选择 . 可想而知,信息系统在金融行业的关键业务中扮演着越来越重要的角色。业务系统的中断会带来不可估量的经济损失,保证数据不丢失和业务连续性尤为重要。同时也是银监会等监管机构的要求。

1. 项目背景

目前, 本次项目 银行的数据中心为传统两地三中心架构, A 数据中心为主生产机房, B 数据中心作为同城灾备机房,异地灾备中心部署在北京。由于 A 机房和 B 机房投入较早且使用超过 10 年、距离过近、异地灾备机房受建筑条件限制等因素,存在诸多问题。

1.1 项目现状及存在的问题

  • l - 距离问题

本地两数据中心距离过近,直接距离 1.5km ,无法满足监管要求,不能有效规避区域性风险。

l 机房安全性问题

随着近几年业务的快速增长,年均新增 10 个机柜,未来预计机柜增长持续增加。机房空间、承重、电力供应、空调制冷能力已满载且元器件老化,稳定性和安全性均无法满足需求。

l 基础设备问题

银行核心业务系统运行在 IBM 小型机设备上,存储空间主要来自 IBM 的传统存储 DS8000 和 V7000 系列,存在超期运行风险,且在容量、性能、灾备业务接管能力方面无法满足银行业务发展需求。

l 整体架构问题

整体架构为传统两地三中心架构,业务系统垂直化部署,结构不够灵活,业务横向扩展受限,且架构无法向多活数据中心演进。 5G 技术的发展以及互联网金融的发展对整体 ICT 架构提出了灵活、横向扩展、以及多活数据中心的要求。数据中心架构在技术发展的驱动下应可向多活、云化、大数据等方向演进,传统的垂直型架构需调整。

l 业务扩展问题

目前金融科技、金融创新发展迅速。互联网金融业务广泛普及,业务的敏捷开发、快速上线、并发处理、横向扩展是当前形势下要亟待应对的问题。双活和多活业务系统架构是未来趋势,该趋势对双活、多活数据中心的建设提出了挑战和要求。

同时,重要一点就是没有真正意义上实现业务连续性要求,一旦生产中心出现故障,在同城灾备中心启动业务需要一定的时间,风险性很高。而且只能是一些核心业务系统能启动,且同城灾备数据中心配置偏低,就是启动后也承受不了相应的业务运行压力。

1.2 项目建设目标

预计在本次项目中,同城新建一个数据中心,做同城双活数据中心,原来 B 数据中心设备搬迁至新数据中心 C ,解决距离过近问题,同时老的存储数据迁移至新存储上。 A 数据中心和新数据中心 C 存储完成双活搭建,业务根据需要建立双活,两个数据中心同时对外提供服务。异地数据中心在北京,总共部署 6 台华为 OceanStor Dorado 18500 V6 高端全闪存储,在两个数据中心 A 放置两台,新数据中心 C 放置 3 台,其中 1 台作为两台存储的备存储。另外一台放置异地数据中心北京。

1.3 存储选型原则

² 合规性要求

银行的核心存储作为银行信息系统中最为关键的核心设备,不仅存放全行业务及管理的关键数据,同时也是容灾解决方案中最为关键的的底层技术,其意义和建设影响巨大,必须满足国家及金融行业监管的合规性要求。

² 产品国产化要求

随着国家政策的调整,国产化的崛起和迅速发展,项目产品和选型上必须拥有完全独立的、自主的知识产权,特别是对核心技术拥有研发、维护、升级、技术支持等拥有完整的能力,打破行业垄断。

满足以上两点要求的基础上,结合银行业业务系统的应用特点,在本次存储方案产品选型设计上还应遵循如下原则:

l 先进性原则

存储系统必须严格遵循国家标准、国内信息行业和金融行业的规范要求,而且在业界广泛应用,并有相应的成功应用案例。

符合业界发展趋势,技术水平领先,有先进的技术服务团队,提供强有力的技术支持。同时,存储的服务处理能力强,后续扩容方便。

l 开放性原则

系统必须支持国际上通用的标准网络存储协议、国际标准的应用开放协议兼容主流的操作系统和应用程序,与现有 IT 系统、软硬件系统高度集成并可以无缝替换和升级,支持多种协议,可以与第三方云管理平台集成, 如 Openstack 、 VMware 、 Docker 等

l 易维护性原则

可以提供标准的管理接口,支持运维管理平台统一管理;生产区网络可实现自动化部署和配置,以及数字化管理。

存储系统支持在线升级、扩容以及部件更换等,包含控制器、硬盘、接口卡等等, 部件或更换部件时不可以影响到上层业务,并可以实现自我性能优化。

l 安全性和创新性原则

明确应用间的访问控制原则,通过安全策略要能实现按需部署和管理,在安全、稳定的基础上,积极采用创新性架构设计,构建网络、系统、应用各个层面的整套安全防护体系。

l 高可靠性和高性能原则

高带宽、低延迟,可满足不同应用系统的性能要求,并支持云化资源池的部署。

设备可靠性达到 99.9999% 要求,满足业务系统不间断、高质量的访问需求

l 低碳、经济、环保

节省成本,提升性能,满足银行在 3-5 年的快速发展要求,确保技术不落伍,同时满足国家的绿色环保要求,低能耗、无污染。

2. 方案亮点

2.1 双活存储设备选型亮点

存储双活方案作为全行业务的核心基础架构,其架构的选择决定了整个系统是否可靠高可用、安全可信赖、弹性可扩展。此次项目建设,采用基于专业的虚拟化存储设备来构建高可用、高性能、可扩展的存储双活方案。本次项目选型新购了 6 台华为 Oceanstor Dorado 18500 V6 高端全闪存储,分别布置于两个数据中心 A 、新数据中心 C 、异地数据中心北京。本次选型遵循合规性、产品国产化两点要求的基础上兼顾先进性、开放性、易维护性等原则,选择了华为 OceanStor Dorado 18000 系列存储,这一产品是华为自主研发的存储产品,拥有完全独立的知识产权和完整的技术支持服务体系。是国产化存储的领头羊,而且近几年在金融、证券、保险、能源等行业有很多成功的案例和良好的口碑,其稳定性、可靠性等毋容置疑。这个也是作为合作伙伴的我们在国产道路上比价看重的产品优势及能力。也是本次方案中的选型优势点。

l 高性能

华为存储 Dorado18500V6 的 IOPS 值可达到 2100w , 端到端 NVMe 确保 0.05ms 极致时延; 采用智能硬件和智能缓存算法,读缓存命中率提升 50% 左右; SCM 智能加速时延可以降低 60% ,大大提高了存储的性能,最大缓存可以达到 32T ,可以扩展到 32 个控制器。 华为存储的 smart 特性设置可以大幅度提高存储的性能和利用率,不会造成资源的浪费,同时,随着业务的增长可以在线对存储产品升级扩容 。

l 高可靠性

华为 OceanStor Dorado 18500V6 高端全闪存储从部件级、架构级、产品级、方案级和云级五个层面打造端到端的可靠性架构,承载全整合场景所需,保障业务 99.99999% 高可用。内部 采用全新一代的硬件平台和极致稳定的 SmartMatrix 全互联架构,可容忍 8 个控制器中的 7 个发生故障,业务不中断。保障核心业务持续在线。

华为 SSD 盘采用全局磨损均衡技术,把业务负载均衡到所有 SSD ,延长单块 SSD 寿命;采用华为专利的反磨损均衡技术,避免多盘集体失效,提升整系统的可靠性。

内部采用 SmartMatrix 架构,可容忍控制器 4 坏 3 、最多 8 坏 7 故障,任意引擎 2 坏 1 故障,业务 0 中断。

从控制器到硬盘采用全冗余设计,确保不会出现单点故障,而且硬盘背板密度提升了近 44% ,整体散热能力也提升了将近 25% ,采用 RAID-TP 技术可容忍 3 盘同时失效。采用的 RAID 2.0+ 数据算法,可以实现比传统 RAID 技术快 20 倍的数据恢复速度,降低 95% 因硬盘故障导致的数据丢失风险。

同时,也是是业界唯一 SAN&NAS 一体化 AA 双活,两地三中心,免网关云备份,可以实现业务零中断。结合华为存储的 SmartVirtualization 特性和 SmartMigration 可以很方便的对异构存储进行管理和异构存储数据在线迁移到华为存储上,免除了要单独购买存储虚拟网关的投资,降低了成本。并且 和华为公有云、联营云配合,实现免网关灾备上云,云内分钟级业务恢复。实现对异构存储管理的同时,可以实现存储云上云下联合备份和恢复,极大的提高了数据迁移管理和数据的安全系数。

l 运维高效

可以进行预防性维护,提前发现热点盘,并进行合理的优化;而且可以对系统性能瓶颈提前预判,可以提前发现故障盘,降低风险点。同时 eService 智能运维管理平台可以增强基础运维能力,提升整体运维效率,降低运维成本,降低运维难度。通过设置相应的告警级别和告警方式,可以使运维管理人员远程都可以实时监测到存储的运行状况,运维管理更为灵活,出现问题能第一时间告知处理。

2.2 双活方案亮点

华为 HyperMetro 是基于存储阵列实现的 Active 双活,两套独立存储组建成跨站点集群,可以同时承担相同业务,提供高可靠性数据保护方案。双活特性实现了两套存储的 LUN 数据实时同步,且都能提供主机读写访问。两个数据中心互为备份,当任何一端存储系统出现故障,主机将切换业务到正常的存储系统继续进行业务访问。当存储系统间链路故障,只有一端存储系统能继续提供主机读写访问时,具体由哪端存储系统提供服务,将取决于仲裁服务器仲裁的结果。华为 HyperMetro 在提供给用户高级别的数据可靠性以及业务连续性的同时,提高存储系统的资源利用率。

l 秒级切换

SAN 和 NAS 一体化双活典型场景下,一般能在数秒至数十秒内完成双活切换,有效保护业务的连续性。

l 自动恢复

如果站点 A 发生故障导致 VStore Pair 工作站点切换到站点 B ,在 A 故障恢复后,可以自动发起重同步,而无需人工接入。在重同步完成后,双活变为正常状态,该状态下站点 B 再发生故障,双活可以继续切换到站点 A ,业务不中断。

l 极简组网

采用华为 HyperMetro 双活存储架构相比 IBM SVC 或者 EMC VPLEX 无需额外部署网关设备,最大支持 32 个存储控制器,即两套 16 控存储系统组建双活关系。双活的两套存储系统间通信从性能上考虑推荐使用 FC 链路,存储系统和仲裁服务器之间的链路采用 IP 链路。

l 免网关

减少网关故障点,提高方案可靠性; I/O 响应速度更快,无需经过存储网关转发,避免网关转发 I/O 时延;显著降低双活组网复杂度,便于维护。

l 易于升级扩展:

当银行需要为原有 SAN 和 NAS 业务配置双活时,只需要购买双活 license 并升级到最新的软件版本,就可以和另一台阵列配置双活,而不需要额外的数据迁移过程。

3. 方案设计

3.1 需求调研

本次项目银行数据中心在本地和同城两个数据中心,异地在北京,涉及的服务器有 X86 和 IBM 小型机多台,存储以 IBM DS8000 和 V7000 系列 为主。需要迁移的数据量约有 50T 。

另外 NAS 数据约有 100T.

X86 采用的 VMware 虚拟化设计,业务系统涉及村镇网银、网银 app 、数仓、村镇集群、等等。

小型机有 Powervm 和 lpar ,双机系统,涉及渠道、网银、核心、密服、金融 IC 卡 多个业务系统,共计约有 18 套。

涉及到的产品型号有 IBM 的 DS8300 、 DS8886F 、 V7000 、 V7000F 、 V5000 等。

多套存储设备为机械硬盘与旧协议 SSD 盘,受限于机械硬盘物理特性、 SSD 盘协议标准、 SSD 盘闪存颗粒类型,在大量随机读写、大并发 I/O 等相关场景下无法进一步胜任需求。

现网存储设备投产时间较早,随着时间推移设备老化带来故障率逐年递增、设备稳定性逐年递减。

现网多数存储设备容量使用 80% 以上,使用率非常高。

3.2 方案设计

同城两地数据中心做双活,异地数据中心通过异步复制,实现两地三中心的容灾方式是当前金融行业容灾建设的主流设计。

同城两地数据中心双活可以实现数据零丢失和业务不中断连续运行。异地数据中心可以获得远距离的数据保护,如果同城发生自然灾难时可以切换到异地数据中心。最大限度的保证数据安全也业务联系运行,最大限度的降低风险。但异地恢复通常会丢失少量的数据。

l 数据迁移规划

  1. 新购 1 台 SAN 高端存储设备(华为 OceanStor Dorado 18500 V6 ),用于承载新建 x86 集群环境数据

  2. 新购的 SAN 高端存储(华为 OceanStor Dorado 18500 V6 )还用于接收同城传输的数据

  3. 新购 2 台 48 口光纤交换机,用于新建 x86 集群环境及现有 SAN 环境共用

  4. 将 A 数据中心小型机本地上的数据和虚拟机化数据迁移到新购的华为 OceanStor Dorado 18500 V6 高端存储上面

l 存储整体规划

新购的 SAN 高端存储(华为 OceanStor Dorado 18500 V6 )将采购双活技术实现生产中心与灾备中心的“零”数据丢失及“零”切换,任意存储出现故障都不影响业务正常访问,实现数据访问和存储“零”宕机。

另外,除了同城双活外,在异地通过远程数据复制技术实现数据异地保存,总体实现同城双活 + 异地数据复制新“两地三中心”模式。

l 总体规划数据复制方案

AS400 设备继续采用现有 IBM DS8800+DS8300 存储设备不变

新建 X86 集群虚拟化采用新购的高端 SAN 存储设备(华为 OceanStor Dorado 18500 V6 ),并将现有部分虚拟机迁移到新购的高端 SAN 存储设备(华为 OceanStor Dorado 18500 V6 )中,部署方式为生产与同城为双活方式,异地为异步数据复制方式。

将现有小型机数据迁移到新购的高端 SAN 存储设备(华为 OceanStor Dorado 18500 V6 ),部署方式为生产与同城为双活,异地为异步数据复制。

同时,将现有 NAS 存储设备迁移到新购的 NAS 设备(华为 Oceanstor Dorado 5610 V5 )中,部署为生产与同城双活方式。

现有数据中心的 IBM SVC 虚拟化存储保持现有部署方式不变,采用生产与同城为同步数据传输,异地为异步数据传输。

4. 整体方案描述

从方案设计上可以看出,该行三个数据中心,同城是实现的存储数据双活,然后生产中心的数据通过异步复制复制到北京异地数据中心。这样可以实现同城 RPO 和 RTO 等于零,保持业务不中断。

l 组网方式

一般来讲,采用两地三中心组网方式有级联和并联两种方式。一般有那么几种情况

  1. 同步加异步级联 3DC

实现关键业务数据的高可靠性,同时满足数据的实时备 份和异地备份,保证关键业务数据拥有两个备份副本。

对生产中心存储系统性能影响较小,不影响主机的正常业务。

当生产中心发生灾难, B 站点可立即接管其业务并进行数据恢复。如果二次灾难使得 B 站点失效, C 站点数据 依然可用。

  1. 异步加异步级联 3DC

 实现关键业务数据的高可靠性,同时满足数据的本地备份和 异地备份,保证关键业务数据拥有两个备份副本。

 对生产中心存储系统性能影响较小,不影响主机的正常业务。

 当生产中心发生灾难, B 站点可接管其业务并进行数据恢复。 如果二次灾难使得 B 站点失效, C 站点数据依然可用。

  1. 同步加异步并联 3DC

实现关键业务数据的高可靠性,同时 满足数据的实时备份和异地备份,保 证关键业务数据拥有两个备份副本。

 C 站点的数据备份不依赖于 B 站点, B 、 C 之间任意一个站点失效,仍能保证生产中心有一个备份站点。

 当生产中心发生灾难, B 站点可立即 接管其业务并进行数据恢复。如果二 次灾难使得 B 站点失效, C 站点数据依然可用。

  1. 异步加异步并联 3DC

实现关键业务数据的高可靠性,同时满足数据的实 时备份和异地备份,保证关键业务数据拥有两个备 份副本。

 C 站点的数据备份不依赖于 B 站点, B 、 C 之间任意 一个站点失效,仍能保证生产中心有一个备份站点。

 当生产中心发生灾难, B 站点可立即接管其业务并 进行数据恢复。如果二次灾难使得 B 站点失效, C 站 点数据依然可用。

  1. 双活组网方式 + 异步并联复制模式

实现关键业务数据的高可靠性,同时满足数据的实时备份和异地备份,保证关键业务数据拥有两个备份副本,两个数据中心同时提供对外服务。

本次采用华为 OceanStor Dorado 18500 V6 高端全闪存储采用的就是双活组网方式和异地异步复制模式,仲裁服务器根据需要采用的是双仲裁服务器机制。

其相对优势如下:

1、 新数据中心 C 和原生产中心 A 距离可以满足双活要求,轻易可以实现双活组网

2、 异步复制采用华为多时间片技术,做到秒级 RPO, 周期 3s 到 1440 分钟

3、 灾备演练或者计划化内停机,不影响另一个数据中心正常运行

4、 异地可以节省带宽,减少对生产中心的性能和网络影响

5、 可以实现自动化运维,方案成熟且扩展性良好

6、 双仲裁服务器机制可以更好的避免存储出现脑裂的风险,实际上给仲裁服务器做了高可用性。

※ 时间片:是缓存的一部分逻辑空间,每次同步周期开始时,主从两端都会生成时间片,主端用于接收主机下发的 IO ,从端用于接收主端同步过去的数据。当同步周期开始时,主端会将上一次同步周期生成的时间片里面数据同步到从端周期生成的时间片里。利用多时间片技术可以减少数据传输量。

l 容量设计

在存储容量设计上,采用的是 1:1 的模式,每台存储配置了 150T 的可用容量,单盘为 3.84TB SSD NVMe Palm 硬盘单元,完全满足银行未来 3-5 年的发展需求。

存储数量 可用容量 地点
2台 150T 同城A数据中心
3台 150T 同城C数据中心
1台 150T 异地北京数据中心

5. 方案收益

华为的 OceanStor Dorado 18500 V6 高端全闪存储产品协助本次项目银行完成了两地三数据中心的搭建以及本地同城存储双活的搭建,完成了预期目标,满足了银监会的监管要求,规避了区域性风险。

华为 OceanStor Dorado 18500 V6 高端全闪存储的双活技术实现生产中心与同城灾备中心的数据存储同时对外提供服务,任意存储出现故障都不影响业务正常访问,实现数据访问和存储“零”丢失,实现了业务的连续性。

保护投资,降低成本,实现了低碳、环保和节能的同时,华为的 OceanStor Dorado 18500V6 高端全闪存储产品全面的兼容性和卓越的性能表现, 降低了业务运维难度,提高了整体运维效率,同时也提升了银行整体信息化运维水平, 可以保证产品技术在未来 3-5 年内不落伍,满足本次项目银行业务在未来 3-5 年内的发展需求。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

5

添加新评论6 条评论

kingroc2004kingroc2004技术经理, XX证券有限公司
4天前
为了提高资源利用率,怎么不设计成同城双中心呢?
匿名用户
4天前
为了提高资源利用率,怎么不设计成同城双中心呢?
zhizhewudizhizhewudi软件开发工程师, lz
2022-04-22 17:16
666
zhuoxiangzhuoxiang技术支持, ZX
2022-04-17 16:14
谢谢
woshishui072612woshishui072612系统架构师, 沧海月明
2022-04-17 10:54
请教下,当时选型标准或者选型参考有吗?怎么就选上华为 OceanStor Dorado 18500 V6。而不是6800 v6或者5xxx v6呢?

woshishui072612@zwz99999 感谢分享及回复。 不过怎么能说明核心存储对应的型号呢,因为也会涉及多个品牌厂商。

2022-04-29 18:54

zwz99999@woshishui072612 一个重要的原因是核心存储,用在银行的核心业务,也就是使用场景;二是功能及投资收益,三是功能性、稳定性、可靠性和未来业务的发展这几个方面吧!

2022-04-18 10:46
ostrichostrich系统架构师, 自由职业者
2022-04-12 10:37
生产中心、同城灾备中心、异地灾备中心,三者之间为什么不做成一个环呢?

zwz99999@ostrich 你说的对,当时考虑到了,由于一定原因,只是做了同城双活,同城灾备和异地灾备做了异步复制,估计二期会完善

2022-04-12 12:20
Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

NAS存储选型优先顺序调研

发表您的选型观点,参与即得50金币。