rechen2020
作者rechen20202022-04-27 17:07
系统架构师, 某大型银行

某商业银行基于Dell EMC高端存储实现银行主机下移核心交易系统实践分享

字数 6031阅读 5615评论 4赞 6

【摘要】随着互联网、大数据、人工智能等新一代信息技术的快速发展和应用,以移动金融、互联网金融、智能金融等为代表的金融新业态、新应用、新模式正蓬勃兴起,互联网企业携新技术和线上巨量客户对银行业务进行冲击,倒逼银行深刻认识并积极拥抱互联网新技术,银行 IT 架构转型成为必然趋势。

本文内容为 银 行 IT 架构转型 过程中的主机下移项目, 基于 DELL EMC 高端存储的核心系统实践经验 , 从银行的 主机下移 项目背景、 主机下移的平台总体架构 、存储 需求和存储 设计方面做简要说明 。

1、主机下移业务背景

近十年来新技术蓬勃发展,人工智能、大数据、区块链等技术驱动了金融服务模式的创新迭代,如移动支付、数字人民币、无接触服务等极大提升了金融服务的便捷性;与此同时,云计算、分布式、微服务等技术更是有力地推动了金融与科技的加速融合和发展,给银行业的商业模式、服务模式和运营模式带来了颠覆性变革。银行服务日趋开放, “ 去中心化 ”“ 生态化 ” 成为银行业务服务及信息系统的未来新格局。

在此大趋势下,银行主机核心系统暴露出标准化、扩展性、性能等不足之处,表现在业务层面,面对高并发、海量异构数据、监管合规等挑战,银行对核心交易处理系统高吞吐、高性能、分布式存储、复杂系统集成、对外开放接口等提出新的要求;另外也存在提升安全自主可控能力的客观要求。因此,银行纷纷启动从集中式专用走向分布式的 IT 转型之路,其中最重要的是进行技术攻关突破,建立可承接核心银行业务的分布式技术体系和建设新一代 IT 架构和云基础设施,以及逐步推进主机核心业务体系性下移,建设包括核心业务基础服务、账户体系、重点产品服务在内的新一代银行核心系统,这个银行核心交易处理系统从主机集中式架构向分布式架构的演进过程就是主机下移。

2、主机下移的平台总体架构

银行主机下移之前的核心交易处理系统大多基于主机技术,采用的主机集中式架构是应用服务和数据服务紧耦合,应用系统运行在同一套主机服务器集群中,扩展性主要依赖主机系统平台,具有很强的纵向扩展能力,不支持跨主机集群的横向扩展,或由存储设备、或由主机软件负责数据的同步。此架构可以满足银行在客户数、账户数、交易量条件下对业务处理的一致性、实时性和安全性要求。譬如第五代之前的招行信用卡核心交易系统和银行核心交易系统:

图 1 :主机集中式架构例图

单机房中存储设备是双活部署的设计,如图 2 所示:

图 2 :单机房存储设备的双活部署部署样例图

金融行业主机下移进行 IT 架构转型已经逐步成为业界的共识和趋势。分布式技术架构源于并行计算处理,擅于处理大数据量、高并发量业务场景。互联网企业将分布式技术架构应用于搜索、电商、云服务等领域,充分体现出其在高并发业务处理、海量数据分析和系统建设成本等优势。为满足网络化、数字化和智能化的转型需要,银行需要为不同类型的应用系统选择不同的技术架构,主流是向分布式技术架构演进。

银行主机核心交易处理系统下移采用的是应用服务层和数据库服务层松耦合,应用服务和数据服务分别运行在不同的服务器集群中。扩展性主要依赖应用平台,由于采用分库分表技术,因此应用服务器和数据库服务器均具有很强的横向扩展能力。应用服务层采用微服务化,数据库服务层采用集中式数据库和集中式高端存储。基于此架构的银行核心系统,通常采用本地多活异地灾备部署的单元化架构,本地多活是本地多个逻辑数据中心同时承载业务,并且通过数据库的复制技术使得数据在同城多个 AZ 中冗余多份;异地灾备数据通过异步的方式复制到远程站点,用以提供灾难级别恢复。

银行主机下移的架构演进通常有如下四种方式:

  • 分布式架构。 基于自研分布式平台,完成个人存款核心建设,实现核心部分功能下移;或者通过建立基于 X86 的分布式非金融核心系统,实现将原主机系统中对数据时效性不敏感且资源消耗高的非金融服务下移。
  • 云 + 分布式架构。 采用“分布式核心系统 +PaaS 平台 +IaaS 平台”,分阶段推动核心下移,譬如一期完成私有云平台搭建和二三类账户、会计核算引擎迁移,二期将实现贷款核心和一类账户的迁移。
  • 分布式架构 + 分布式数据库。 采用自研分布式平台结合分布式数据库,在实现 AS400 主机下移的同时,实现核心系统的分布式部署。
  • 云 + 分布式架构 + 分布式数据库。 采用“ X86 服务器 + 分布式数据库”为基础支撑,完成新一代云架构核心系统的建设。

当前我 行已经建成投产的金融交易云( Financial Transaction Cloud , FTC )通用区采用的是 分布式架构 。金融交易云是完全自研的金融级高可用的应用云平台,承载了以往在主机上的核心交易系统改造成的新一代基于分布式和微服务架构的新一代银行核心系统。金融交易云平台包括了开发框架、自动化编译构建、发布调度、虚拟机容器混合部署、资源池与资产管理、服务治理、智能监控、便捷门户网站等服务,通过对资源池进行统一管理和智能调度,实现容器秒级交付,虚机分钟级交付,应用分钟级发布,统一为核心交易应用提供稳定可靠的基础设施,集成 DevOps 平台支持了核心交易应用的快速交付,并提供应用全生命周期的运维一键产品以及智能监控与自愈能力。金融交易云平台为有效提升基础设施各项高可用技术的整体性能和可靠性,达到以满足监管要求的业务连续性水平,业务连续性相关的复制、容灾、高可用方案均在应用层(包括数据库)实现,以降低存储层的复杂度,同时做到应用、主机、存储各层之间进行解耦增加灵活性和扩展性,这样增强自主可控能力。

金融交易云平台的本地双中心主活 + 异地灾备的部署架构如图 3 所示:

图 3 :金融交易云的本地双中心主活 + 异地灾备架构图

金融交易云平台上的新一代银行核心系统统一采用了 Oracle RAC 集群的 ASM 冗余设计来保障核心生产存储数据的高可用冗余,如图 4 所示:

图 4 : Oracle RAC 集群的高可用架构图

其中:

  • RAC 集群的两个节点分别部署到不同的物理机,提供计算节点的冗余。
  • ASM 采用 Normal 冗余将数据分别放在两个不同的物理存储,提供存储级别的冗余,即双写于两份存储,当任何一份存储或数据不可用时,另一份存储可进行无缝接管,实现本机房内 RPO=0 , RTO=0 。
  • RAC 集群使用的存储 LUN 由集中式 SAN 存储设备做 RAID6 保障高可用。
  • RAC 集群心跳网络采用 HAIP 技术将网络心跳分布在两个不同的网段,提供心跳网络的冗余。
  • RAC 集群的对外公网采用双公网接入的方式,配置第二个服务网段,提供公网的冗余。

3、分布式核心交易系统存储的需求和设计

分布式架构需要着眼于对业务的支撑能力和模式,我们需要清晰的认知到各种技术对各种业务场景、各个业务平台的适用性。分布式架构≠分布式存储。对金融行业,在设计存储基础架构时,需强调方案的整体性、存储系统和 SAN 网络的有机结合,同时考虑存储系统的高可用性、高可靠性、可管理性和可扩展性等诸多方面的因素,以满足业务发展的需求。在架构方案设计中强调并认真遵循以下设计原则:

  • 可管理性:具有良好的可管理性,使管理人员能方便及时地掌握软硬件系统的工作状态、故障状况、性能统计等信息,能简便地对系统进行在线配置、调整,确保系统状态良好。
  • 安全性:存储系统的设计必须贯彻安全性原则,以防止来自网络内部和外部的各种破坏,达到防窃听、防窃取、防攻击、防侵入,具备对入侵者监视和跟踪技术的目的。
  • 先进性:采用先进的设计思想和系统架构,选用先进的软硬件平台,使系统在未来一定时期内保持技术上的先进性,存储系统应具备可信的数据缩减能力并且可基于当前 AI 人工智能的存储优化算法实现业务负载的感知与自优化技术。
  • 开放性:系统设计及设备选型遵从国际、国家标准,使系统具有开放性和兼容性,应用系统基于主流的操作系统、数据库系统和中间件平台。
  • 可靠性:系统的设计必须贯彻可靠性原则,使系统具有很高的可用性,系统的关键组成部分要求可以采用多种冗余容错技术,确保系统没有单点故障。
  • 可扩展性:存储系统设计在充分考虑当前情况的同时,支持系统规模的扩大和业务的扩展,应能够满足未来 5 年内的规划需要。

金融交易云平台的核心存储选型,统一选择了有技术积累、历经市场验证的真正企业级高端全闪存的集中式 SAN 存储设备 ,确保可靠性并保证至少 5 年内承载的银行核心应用不出现存储层的性能瓶颈。 具体存储需求为成熟、可靠、连续服务能力以及存储读写性能好,延迟低,存储资源获取方便,相关的技术特性如下所示:

  • 高端全闪介质存储,最低 4 控制器, 30 个以上前端接口,可用性 99.9999%
  • 常规场景要求小块随机 IO 读写 IOPS 达到 300000,95% 分位延迟小于 2ms
  • 存储端口带宽达要求 32G ,要求采 NVMe+RDMA 技术
  • 要求实施在线、可行可用的、高效的数据压缩消重能力
  • 提供 API 接口,提供给外部系统调用,快速分配存储
  • 平滑、无中断的变更、升级支撑能力和数据服务能力
  • 展现对先进技术的融合、助力绿色建设理念

存储设备作为金融交易云平台基础设施中最为关键的核心设备,不仅存放着银行核心系统的业务及管理数据,同时也是容灾解决方案的主要底层技术,选择了某品牌存储也就选择了该品牌的存储高可用技术 。当前全球以及国内公认的主流存储解决方案供应商主要有 DELL EMC 、 IBM 、 HDS 、华为等。在主机下移前,我行核心交易处理系统长期规模性使用了 Dell EMC 存储,对该品牌产品的发展和创新有深刻的感受。在综合评估降低存储技术风险、数据迁移保障和存储运维技术支持、兼容性支持能力等因素后,金融交易云平台的核心存储选型选择了 DELL EMC 的高端闪存 PowerMAX 8000 系列,这是一款基于 Intel 至强芯片的高端存储阵列,采用了最新的闪存介质技术,包括全系统对 Intel 的 Optane 和 NVMe 技术的 100% 支持能力、对 FICON 协议的长期原生支持能力,非常适用于对平台大型数据中心环境:

图 5 : DELL EMC PowerMAX 8000 多环境支撑能力

图 6 : DELL EMC PowerMAX 8000 主要特性

DELL EMC PowerMAX 8000 的产品特性如下:

  • 现代体系结构:

业界最早支持 NVMe 端到端的全闪存储,标配采用端到端 NVMe 的多控制器横向扩展体系结构,以提高新型介质(包括闪存和 SCM )的性能,并且支持全局的存储横向扩展架构。

  • 智能化软件:

DELL EMC 高端全闪存储内置机器学习引擎,利用预测式分析和模式识别来更大限度地提高性能,且没有任何开销。连续的智能数据放置无需管理开销,可以节省大量时间,以最小的成本确保最大的性能。

  • 优化的存储效率:

具备最新的线内重复数据消除和压缩技术,将实现 3.5:1 的数据缩减率。另外,重复数据消除和压缩对性能影响小,可与所有数据服务搭配使用,由应用程序打开和关闭。

  • 任务关键型可用性

SRDF/Metro Smart DR 可进行的双活数据中心复制、 2 地 3 中心以及 4 中心的复制容灾拓扑,可无中断硬件和软件升级,具有高度弹性、不含任何单点故障的体系结构,避免计划外宕机对业务的影响。

金融交易云平台的核心存储在 SAN 组网设计为每个核心机房配置 Director 级别的大型 SAN 交换机组成 A 、 B 冗余 SAN Fabric 。各机房 SAN Fabric 之间不相互打通二层,同时也不采用跨机房、跨主机中心远程 SAN 网络技术; Oracle RAC 集群数据库的主物理机端口 - 存储前端口配比为 1:1 ,即 1 台宿主机通过 2 个主机 HBA 卡端口联通 1 组存储前端口( 2 个 1 组),主机端单存储卷呈现 2 条路径。

金融交易云平台的核心存储的部署设计,是以 2 台 DELL EMC PowerMAX 8000 全闪存存储阵列设备为一组,使用时同一平台或业务的 A 、 B 集群主机接入 2 台存储,增加应用总体架构的冗余性,同时降低单台存储故障影响范围。存储配置规格是保准化配置,单台存储四控起配,初始配置 2048~4096GB 缓存,使用 RAID5 配置,所有 LUN 默认创建为精简 LUN ,配套 4 台 SAN 交换机。

银行核心交易处理系统的数据高可用,是由金融交易云平台的本地双中心主活部署 + 本地灾备 + 异地灾备的高可用单元化架构保障的,此架构 避免了跨机房、跨城市访问的延迟,不但消除了传统 “ 两地三中心 ” 架构中的单独冷备中心,并提升了灾备高可用能力,无论在成本还是在伸缩性、高可用方面,都带来了巨大的优势, 支撑了更稳定、更高效、更低成本的金融级服务。

银行核心交易处理系统的数据库设计 采用 分布式松耦合一主多从多副本强一致架构,如图 7 所示:


图 7 :分布式核心应用架构样例图

其中:每个节点承载一个独立客户群体。节点之间在客户群上不重叠,一个客户的整个生命周期只会在一个节点上进行处理和存储。节点之间不共享物理资源,从而保持最大程度的独立性。每个节点只服务银行客户中的一个客户子集,具备服务所承载客户群所需的全部技术支撑能力,能够存储该客户群所有客户的全部数据。在应用层面,所部署的应用系统,在应用层面采用松耦合部署,不同应用域的应用系统不共享物理资源;在数据层面,采用一主两从强同步架构实现数据的高可用性。 数据的高可用冗余,在存储侧的维度看,业务数据在本地主中心的一组存储设备上存有 2 份,在本地灾备中心的一组存储设备上存有 2 份,在异地灾备中心的一组存储设备上存有 2 份,共计 6 份。

4、总结

在主机下移项目中,需要同时保障核心业务稳定与创新,自研的金融交易云平台在架构设计上,为降低存储层的复杂度,同时做到应用、主机、存储各层之间进行解耦增加灵活性和扩展性,创新地采用、实践中落地了 Oracle RAC 集群的 ASM 冗余设计来保障核心生产存储数据的高可用冗余设计,同时选择 DELL EMC PowerMAX 8000 全闪存存储阵列,保障了平台在性能、可靠性、连续服务能力、可管理性等指标中都有了全面提升,也有效保证了新一代银行核心交易处理系统的成功投产和稳定运行。

作者:罗文江,招商银行资深云计算架构师,从业经验近30年,自身经历了应用开发、业务分析BA、系统设计SA、CMMI之EPG过程改进、应用架构管理、云计算架构设计等角色转变。当前从事银行私有云、公有云和信创云基础设施、以及混合云架构的建设,参与包括IAAS、容器云等相关云服务的规划、技术选型、架构设计和实施,和业务连续性等保障体系的建设工作。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

6

添加新评论4 条评论

wlfwlf其它, 城商
2022-05-14 20:48
感谢老师精彩分享,老师从各种架构演进方向对主机下移进行了多角度分析,对行业内相关架构更迭实施很有借鉴意义
kingroc2004kingroc2004技术经理, XX证券有限公司
2022-05-11 15:15
文章很好,RACLE RAC 这样部署,并不是最好方案,很容易导致脑裂。

lsxshady@kingroc2004 现在主流的oracle RAC不都是这样部署的么?

2022-05-17 15:25
JAGXUJAGXU存储运维管理, ZTZQ
2022-05-10 10:57
文章很精彩,分布式的确是趋势,前段可以分布式,可以无状态,PowerMax还是集中式,啥时候存储也分布式改造了,就更加令人振奋了。
lcclcc其它, 城市商业银行
2022-05-09 16:51
文章挺有帮助,随着信息技术更新发展以及各类金融新业务需求的不断产生,IT架构也在同步不断的演进中,作为从业者不得不提前储备和考量相关的新技术。
Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

NAS存储选型优先顺序调研

发表您的选型观点,参与即得50金币。