hf_0535
作者hf_05352022-01-20 11:11
系统工程师, 城商银行

城商行两地三中心存储架构设计实践分享

字数 5640阅读 4537评论 6赞 6

文章摘要:VMAX 200K存储属于Dell EMC的高端存储,上市以来,在各行各业有着广泛的使用。存储系统作为金融行业的IT基础架构中最重要、最关键的基础设施,如何支持金融行业业务发展,如何进一步夯实银行信息系统底层架构,本文通过银行机构实践案例展示了VMAX 200K在“两地三中心”的存储架构设计与使用,很好的满足了银行IT基础架构更新建设需求。

1 概述

1.1 建设背景

某银行机构生产数据中心因投入运营时间较早,经过长时间的运行,无论是基础环境设施还是机房空间布局,均不能满足业务飞速发展需求。在这样的背景下,该银行机构启动了新数据中心的选址建设工作,同时对数据中心的IT基础架构进行了全新规划设计,存储系统作为金融行业的IT基础架构中最重要、最关键的基础设施,其架构设计更是重中之重,不仅要具有高稳定性、高可靠性,还要具有支持实时业务快速交易的高性能,更要能够支持“两地三中心”的容灾架构,满足容灾切换的需求。

## 1.2 建设目标

按照整体的建设整体规划和银行业信息系统 两地三中心的职能定位,建设更高可靠性、高安全性、更具高效性和易管理型的新生产中心,逐步推进实施生产中心投产迁移,利用原生产和异地中心实施同城、异地灾难备份中心改造建设,进而构建能够满足业务连续性管理需求,更具先进性、可靠性的容灾架构体系。

同城 两 数据 中心通过先进、合理 、 高可用的技术手段 ,依托新数据中心建设和同城中心改造,逐步 构建 成为具有行业先进水平的 新一代的同城 双活 灾备 中心 , 综合采用业界现金的技术手段, 最终构建从业务 视角 两中心逻辑 上 同属一个业务集群,作为整体响应业务请求,业务请求在两中心间动态分配,任一中心出现故障时业务上无感知,集群内两中心各存储一份相同的数据且 进行实时 同步更新 , 任一中心出现故障时另一中心自动接管全部业务请求的真正专业化、科学化、高可用 的 容灾体系 。异地中心定位为小异地中心,仅应对发生区域灾难的场景,应急接管业务使用。

作为数据中心底层的核心组件之一的存储系统,也是此次设计的重中之重,不仅承担着日常数据存储角色,也是对未来三中心架构设计起着决定性的作用, 总体设计应以技术成熟可靠、运维简单为导向 ,其设计在满足业务处理和生产数据访问的需求的前提下,应具备有技术前瞻性和设计科学性,满足未来3-5年业务发展的需求,并 为未来私有云、大数据等打下基础、积累经验。

# 2 存储架构设计

## 2.1 总体设计原则

在进行重要业务系统存储设备 整体 架构设计时,主要是本着以下几个原则:

(1)满足业务需求:首先系统 整体 设计以满足业务需求为第一目标。存储设备主要为满足业务需求服务,必须把业务需求作为目标。

(2)可靠性:可靠性在 整体设计上 体现在两个方面,一个方面是在考虑各个环节时,尽量选择当前稳定的版本,例如BIN Code版本、 Firmware 版本、软件 版本等 ;另一个方面是在设计时,尽量考虑对每个模块使用冗余配置。这样,当一个模块发生故障时,不会影响存储数据的正常读写,不会影响业务系统的运行。

(3)性能:由于不同应用对 存储 资源的 需求不同 ,在设计时将性能作为一个重要因素进行考虑,指导对于不同的业务系统进行存储资源的分配, 以充分利用磁盘阵列的性能,满足业务对性能的要求。

(4)扩展性:整体 设计不仅仅是满足 现状,还会考虑到今后一段时间存储的扩展, 在扩展时整体框架保持稳定,降低扩展对应用系统的影响 。这样随着某银行机构业务的快速发展,在一段时间内存储模块的架构将保持相对稳定,不会频繁发生变化。

(5)易维护性:在设计时,也要考虑到设计对于以后运行维护的影响。因为采取不同的设计可能造成以后维护的频度和工作量不同。设计 上尽量 采用 便于后期维护,降低维护成本 的方案 。

## 2.2 存储高可用设计

存储设备的高可用设计主要有三个方面:存储设备自身的可靠性、存储设备间的高可用保障和冗余的SAN网络架构。

2.2.1 存储设备的高可靠性

存储设备作为数据集中存放的核心设备,同城将多个(或全部)应用系统存放于单台或者有限的几台存储设备中,一旦设备出现异常将会对其数据存取产生极大的影响,进而产生大面积的系统故障,引发严重生产运行事件。因此,存储设备自身的可靠性必须得到保障,存储设备自身的高可用主要考虑两方面:

(1)磁盘组的RAID 级保护

支持多种RAID水平,包括RAID5、RAID6、RAID10、RAID50、RAID60等;

支持针对高水平RAID数据保护的缓存加速选项,以优化性能;

支持大型、高度可扩展驱动群,以简化存储扩张和管理;

(2)组件的高可用保障 。

高可用硬件设计 ;

支持针对单点物理硬件故障应用访问无感知的需求;

支持双引擎及双控制平面设计;

支持松耦合Scale-Out结构的硬件架构设计;

当前主流厂商的高端存储设备均能满足单设备高可用用的需求。

2.2.2 存储设备间的高可靠性

存储设备间的也是存储设备可靠性设计的重要环节,存储设备自身的可用性的依靠磁盘的RAID组和组件的高可用保障,但存储设备运行在数据中心中,依赖于数据中心的风、火、水、电等基础设施,一旦这些基础环境出现问题也导致存储设备不可用。

为避免此类故障对数据中心运行产生的影响,可考虑单中心多模块设计,同时结合因地震、海啸等因素造成的数据中心不可用的情形,还会进行多站点多中心的设计,即传统金融行业的“两地三中心”模式。对于存储设备考虑利用多模块或者多中心进行设备间的高可靠性设计。设备间的数据复制采用存储层复制或者数据库层复制的技术来满足设备间数据存储的需求。

2.2.3 冗余的SAN网络架构

SAN网络作为数据传输媒介,其可靠性也是存储高可用架构设计的一部分。SAN网络采用传统的双HBA卡、双光纤交换机和双存储控制器模式,组成冗余的SAN网络架构。

## 2.3 数据连续性设计

存储设备可靠性得到保障后,存储的数据还会因为一些因素导致数据不可用,例如数据产生逻辑坏块、误操作或者程序缺陷等。通常情况下,数据损坏采用数据备份恢复的方案进行数据恢复,但银行机构的重要业务系统一般为对客户的的实时账务处理系统,业务中断恢复时间目标要求很高,需要更快捷的方式满足此次故障场景下的数据恢复需求,一般采用数据库快速闪回、存储快照或专用CDP工具满足。

## 2.4 三中心存储架构设计

综合考虑存储设备高可用和连续性设计,确定了该银行机构最新了“两地三中心”存储架构,采用生产中心为主、大同城小异地的规划模式。如下图所示。

(1)生产中心利用新机房具有多模块设计的优势,在不同的机房模块同时部署 2 台高端存储设备,利用业界主流的数据库复制技术,实现不同机房模块存储数据的实时更新。该设计模式,既能防止单机房模块因消防、电力等数据中心基础设施故障导致的存储不可用场景,又能防止数据层逻辑故障导致的存储数据不可用,进一步保障了生产中心数据的连续性。在两机房模块间实施数据库复制,网络传输路径短,网络架构简单、直接、高效。利用该方案设计,可满足最新的应用层读写分离的设计需求。

(2)该银行机构原同城双中心间容灾数据传输一直采用存储复制的方式,此次新架构设计继续保留存储复制方式,存储复制方式具有技术简单、成熟度高、维护简便和切换时间一致性高等特点。对于该银行机构既保障了技术传承又预留接口便于实现后续存储设备双中心双活。

(3)异地双中心间数据传输采用数据库复制的方式,与存储复制相比可有效降低长途线路带宽,同时存储设备可不受存储品牌和存储架构的限制,达到异地容灾建设效果的同时进一步节省容灾建设成本。

3 存储建设实施

该银行机构重要应用原部署了1台EMC 高端存储设备,此次新存储架构升级改造,主要通过设备新购和利旧来满足。

## 3.1 三中心存储总体布局

落地实施的三中心存储总体布局如下图所示:

(1)新采购两台EMC高端存储,分别部署于生产中心不同机房模块,分别用于生产数据存储和数据库复制的数据存储。

( 2 )同城中心利用原存储设备,与新生产中心新购的存储设备搭建SRDF,满足同城容灾数据的实时传输需求。

(3)异地中心新购普通的存储替换原存储设备,利用数据库数据的异步复制技术来实现异地灾备数据的实时传输。

( 4 )SAN网络采用生产与容灾分离的方式,生产和同城中心利用一组新购光纤交换机设备构建中心内部SAN网络,用于数据中心内部主机设备与存储之间的数据传输;同城双数据中心之间利用另外一组光纤交换机设备构建同城双中心容灾SAN网络,用于同城灾备数据传输;异地灾备中心利用原生产中心利旧光纤交换机设备构建数据中心内部独立的SAN网络。

## 3.2 存储阵列划分

该银行机构新采购的高端存储设备EMC VMAX 200 K,分别部署于生产中心不同的 机房 模块。存储设备配置为双引擎,总计四个控制器,很好的满足存储组件的可靠性设计,存储设备采用SSD和SAS盘混合配置,来满足未来不同等级应用对存储性能不同的需求。

存储设备对主机的资源分配给采用Virtual Provisioning的配置方式,该资源分配方式也是业界公认的存储未来发展方向,具有以下优点:

(1)简化了存储管理 , 允许客户独立于物理存储进行资源调配;

(2) 减少支持容量增长所需的重新调配步骤;

(3)自动宽条带化可以简化数据布局,可以在减少规划工作量和人员的情况下实现相似甚至更高的性能。

通过跨所有驱动器将数据进行宽条带化而获得更高的性能,并减少热点盘的产生几率。通过减少已分配空间但未使用的空间调配,进一步提高存储容量利用率,同时还可以获得更好的能效。

3.2.1 RAID组配置

该新购的VMAX 200 K 存储RAID组配置,支持镜像,Raid5,Raid6等多种Raid保护级别。

Raid规划 主要考虑 性能、容量损失和安全性 三个方面 因素,不同Raid级别容量损失、写性能和可靠性均不相同,对比 如下表所示:

注 : Raid 5以3 +1 为例 ,Raid6 以 6+2 为例 。

综合考虑后续使用和存储磁盘配置,此次次采用Raid 5 (3 +1 )和RAID 1 混合配置的模式,并配置一定数量的热备盘。

3.2.2 磁盘阵列前端口划分

该高端存储设备配置 两个引擎,每个引擎有 32个 前端端口 , 端口速率为16GB,端口示意图如下 :

具体 端口分配如下:

因银行业核心系统有着最重要的作用,因此对核心应用的端口进行了独立划分,核心应用主机使用4块光纤卡,一对二连接,如下图所示,蓝色为核心应用使用端口,使用8个前端口。

橙色为 其它 应用使用端口 , 主机使用两块光纤卡 ,一对二连接,使用4个前端口。端口轮流使用。

按照同样规则配置另一台存储。

3.2.3 VMAX SRP规划

StoragePool划分可以使存储划出的TDEV设备遍历到PooL中所有成员磁盘,并且是条带的,这样就保证了前端TDEV的IO平均分布在后端所有物理磁盘上并且提高了并发性。此次存储设备使用过程中,每个存储划分1个SR P 。根据磁盘类型不同,划分2个DG,分别为SSD DG和SAS DG。为了保证系统稳定性,我们这次设计不准许超分配,(Max subscription为100%)

3.2.4 SLO规划

SL O(Service Level Objectives) 是根据 应用的 Service Level存储分配相应的资源 , 这样可以关键应用已经性能要求高的应用的得到更多的资源 ,保证关键应用的性能。

SLO可以调整,后期如果应用性能要求发生变化,可以调整S LO 来满足不同应用的性能要求,更加精细的 满足 各类 应用的需求 。

此次采购的存储设备,采用了SSD和SAS盘混合配置的方式,支持划分 以下 类型SLO,模拟的磁盘性能如下表所示。

此次,根据业务系统的重要程度,简单划分了2类,即核心应用和其它重要业务系统,便于管理,只使用2种S LO :

核心应用使用 D iamond (钻石级),保证核心应用性能;

其它 应用使用Silver级别 ,如果后期性能不够,可以提升SLO 级别 ,后续根据使用需求或者新增的业务分级需求,可以划分其它SLO。

3.2.5 LUN规划

为便于统一管理,存储规划通常会使用尽可能少的LUN 容量规格类型。此次根据数据库磁盘的使用特点,将LUN划分2种类型,即数据LUN和日志L UN ,不同类型的LUN划分固定的规格,进一步简化了日常的运维管理,也便于后续存储设备更换过程中的数据迁移。

3.3 光交换划分

该银行机构此次购买了一定数量不同型号的 光纤交换机 设备,均配置了当前主流的1 6GB端口 。

生产中心不同的机房模块、同城中心和异地中心内部分别配置2台光纤交换机设备,用于内部的主机和存储设备之间的连接。生产中心机房和同城灾备中心机房,采用4台光纤交换机设备,通过DWDM设备连接,用于存储 SRDF数据传输。

在实际的使用过程中心,分别制定了主机、存储和光交换机VSAN和ZONE等光纤交换机配置相关的明明规范,并按照实际使用对光交换连线配置,光纤交换机设备的使用技术十分成熟,此处不再详细描述。

# 4 总结

该银行机构,近年来,适应新基建、数字化转型的时代潮流,加速向“云+数+AI”新型互联网企业转型,我行此次借新中心建设投产的契机,大力推动行内信息系统建设,将“两地三中心”架构做整理规划,对存储架构进行全新设计,采用业界成熟技术,能够满足未来5 ~7 年的使用需求。目前,各中心已投产完成,通过生产实际使用和容灾切换演练验证其高可靠性和高可用性。

作者:王金东,就职大连银行,主要负责数据中心基础架构规划、建设和运维管理。具有多年的数据中心建设和运维经验,对主机、存储、网络和备份具有深入的了解。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

6

添加新评论6 条评论

tom_wangtom_wang项目经理, 某证券有限公司
2022-03-28 13:12
写得比较详细全面,相当不错。
lovenetworklovenetwork其它, 城商行
2022-01-25 17:14
两地三中心存储架构推进必读!点赞存储实施篇的讲解!知识到位!!!
落叶归根落叶归根信息技术经理, 123
2022-01-25 12:07
笔者对两地三中心存储脚骨设计实践进行分析。①重点阅读“存储架构设计”和“存储建设实施”。②内容干货慢慢,图文结合,便于理解。作者很用心。 建议笔者,补充此内容:如何验证容灾切换演练的高可靠性和高可用性。
kingdonwangkingdonwang系统工程师, 人民银行清算中心
2022-01-25 09:43
文档从技术层面描述了两地三中心存储系统的配置和IO组织,不过要是能有更多业务需求性的内容,文档结构上就更完善了,比如跨机房对传输带宽的要求、不同业务的IO性能要求等,这样规范内容就能更有靶子
wanggengwanggeng系统运维工程师, 某银行
2022-01-24 16:16
中小银行双活架构的确是这样的,下次架构的重大升级估计只能等核心改造了。
DongxinDongxin系统架构师, 某银行股份有限公司
2022-01-24 14:31
大力推动行内信息系统建设,将“两地三中心”架构做整理规划,对存储架构进行全新设计,采用业界成熟技术,能够满足未来5 ~7 年的使用需求。这个是我们银行在做一次重大架构升级的时候必修要考虑到,也希望听听作者这次架构设计中遇到的困难以及如何解决。这个也是对我们来说挺有帮助的。
Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

NAS存储选型优先顺序调研

发表您的选型观点,参与即得50金币。