摘要:本文基于金融行业发展以及国产化趋势,介绍泰隆银行本地高可用建设实践的渐进式设计和落地效果。泰隆银行通过几年的持续建设,打造了一套架构更优、性能更高、可靠性更强、运维更好的金融业务系统。
随着金融业务的快速发展,金融科技逐渐从电子化、网络化迈入数字化、智能化的阶段,随之而来的是多方面的挑战,快速变化的业务形态,无处不在的金融服务,多样性金融业务带来的负载增加,以及金融数据处理场景的持续变化,都对金融基础架构底座提出越来越高的要求。
金融基础设施的改革和升级,在聚焦于金融云、大数据、AI等热点的投入的同时,也要在核心账务联机交易等传统生产系统的基础设施上不断优化,其中的存储架构在金融基础设施中处于重要的一环,影响着业务数据性能和数据可靠性等多方面,随着各类业务系统的上线、扩容以及应用系统分布式的改造和存储技术的进步,我行针对业务新要求,也进行了存储的升级优化和扩展。
1)时延抖动大,造成业务卡顿。
现网存储采用SSD和SAS分级存储的方式,同时承载核心业务和部分AB类业务,存储时延抖动较大,高峰时期平均读时延超过10ms,最高读时延超15ms,造成业务卡顿,对客户业务办理造成极大影响。
2)生产存储存在单点故障风险,影响业务连续性。
现网存储容灾架构基本满足千亿级银行对于RTO、RPO的基本要求,但是生产存储存在单点故障风险,存储故障切换需要人工干预,年度容灾演练操作复杂度高。现网存储架构无法满足未来向“双活”数据中心模式演进的诉求。
3)现网设备老旧,运维成本高。
核心存储使用某 设备 早期产品,设备老旧,即将过保,后期运维成本高,且扩容难度大,I T设备 难以持续支持业务发展。
基于现网业务的情况,在考虑存储选型时,既要重点考虑存储的高可用性、高可靠性、可管理性和可扩展性、安全自主可控能力等产品本身因素,又要考虑国产化推进等外部因素和性价比等其他因素,以满足企业未来业务发展的需求。
1)产品因素:
2) 外部因素:
国产化推进: 长久以来,IOE技术架构是银行业的标准配置,有着IT技术支持受海外控制的风险。随着金融科技的推动,银行业也在逐步实现IT架构国产化。 **
信创推进: 在国产化推进的基础上,为“防范化解金融风险特别特别是防止发生系统性金融风险”,有序稳定推进银行业的信创工作显然有其必要性。
3) 商务因素:
长期以来,我行使用进口存储品牌,IT投入和后期维护成本巨大,因此也在保证设备稳定高可用的基础上,寻求性价比更高的产品。
华为 OceanStor Dorado 18500 系列高端存储有多年的技术沉淀和积累,其高端存储在功能、性能、效率、可靠性和易用性上都达到业界领先水平,很好的满足了大型数据库OLTP/OLAP、文件共享、云计算等各种应用下的数据存储需求,广泛适用于金融的核心业务、一般业务、共享等多种场景。
(1)高性能:通过华为自研硬件+软件的优化组合, 目前V6系列实现全自研鲲鹏芯片,智能网卡芯片将协议处理实现硬件卸载,SSD存储芯片将核心FTL算法内置在自研芯片中,降低S SD 盘的读写时延,管理芯片集成华为多年积累的故障基因库,故障时通过故障基因库快速匹配故障模型,定位问题给出解决方案,整体从传、算、智、存、管等在关键路径上的端到端加速。
设计 上采用端到端全互联的A A 架构,L UN和文件系统均无控制器归属 ,所有控制器的内存和C PU等系统 资源能够充分利用,采用路径更短且并发更大的 NVMe协议 , 创新的 FLASHLINK 盘控配合智能算法,实现永快一步领先业界的平稳性能 。
(2)高可用: 在可靠性方面,华为 OceanStor Dorado 18500 系列高端存储通过多层可靠性保证,包括硬盘级加固,领先的软硬件架构,系统级的 3 盘失效和框级冗余技术,方案级的 SAN&NAS 一体化双活及其他数据保护和容灾手段。
所有组件与通道均为全冗余设计,无单点故障,各组件与通道均可独立完成故障检测、修复和隔离,确保系统稳定运行。
华为OceanStor D orado 18500 V6 系列存储包含四个独立的控制器,每个控制器内CPU可相互连通,备电单元与控制板在一起,每个控制器之间通过100G RDMA互联,完成数据的交互和镜像数据的备份,电源分两个平面供电,避免单体故障导致控制器离线。
高端前端共享卡,它用将前端链路和存储所有控制器的全互联,保障任意控制器故障时前端链路不中断,控制器故障对主机“透明”,主机无感知。
后端全互连,系统创新的推出后端共享接口模块,每块硬盘的端口通过硬盘框的级联模块分别连接到两张接口模块,当其中一张接口模块故障,控制器仍然可以通过另外一张接口模块连接到硬盘,不再需要通过另外的控制器连接硬盘基于以上两种新技术,在单控制器可以支撑所有业务负荷的情况下,即使出现3个控制器或任意一张接口模块故障,仍然可以保证业务不中断。
独有的数据快速恢复技术:采用创新的块级虚拟化技术,1TB数据重构时间从10个小时降低到30分钟,与传统高端存储相比,因硬盘故障引起的数据失效风险降低95%。
DIX+PI端到端数据保护:提供基于DIX+PI的端到端数据完整性保护方案,保证了数据从应用系统到HBA卡到存储系统再到硬盘的完整性,实现了从应用到硬盘的端到端数据保护,有效的防止了数据破坏,为客户提供更深层次的业务保障。
(3)SmartMatrix软件架构
SmartMatrix软件架构在提供高性能以外,还提供了可靠的软件架构,融合了Cache持续镜像和后端硬盘控制器全互连技术,实现业界领先的4控全冗余特性。引擎内4个控制器互为热备,即使在3个控制器故障的情况下也依然能够保证业务稳定运行,完全避免了传统高端存储在系统升级或者控制单元故障时的单点运行状态,最大程度保证关键应用的业务连续性。
华为 OceanStor Dorado 18500 系列高端存储系统同一引擎框内的4个控制器通过高可靠无源背板互连,当一个控制器故障时,其承载的业务快速切换到镜像控制器,其镜像控制器的写缓存重新镜像到新控制器(同一个控制框内),整个过程可在10秒钟到10分钟之间内完成。
(4)运维可操作性: 智能运维管理eSight智能运维软件可实现云监控,7*24主动监控,每天自动深度巡检;分钟级感知故障,自动报障并自动建单;提供云评估服务,自动化Workload特征分析,一键式生成分析报告,推荐存储设计;智能趋势预测,提前规划扩容。
数据中心存储解决方案基于性能和可靠性考虑,使用传统双存储架构,数据复制基于数据库(Oracle RAC或Mysql 主从)方式,在 两个存储阵列 之间进行数据同步 。
(1)阵列之间复制网络必须采用双万兆交换机和双光纤交换机组网方式,即每个主机到阵列都存在2套独立链路。确保任一条链路发生故障时,不干扰另一条链路的正常使用;
(2)每个阵列控制器必须配置2个端口用于不同光纤交换机的连接,实现链路冗余和负载分担;
(3)为了网络管理方便,网络类型和主机到阵列网络类型保持一致。
(4)仲裁 采用将仲裁软件部署在虚拟机或者物理机上的方式,通过I P网络实现通信 ,可支持双仲裁,提高双活仲裁的可靠性 。
(1)2018年第一期国产化改造,使用产品华为 OceanStor Dorado 18500 V 5 系列 :
OceanStor Dorado 18500 V5(混闪):用于各类常规系统,如资产负载、外部数据、企业门户等IOPS数百~数千且波动不大,较高IOPS部署在闪存硬盘域,较低IOPS部署在SAS硬盘域。如产生IOPS需求变更的,可通过SmartMigration进行同存储不同性能资源池之间在线迁移,满足业务需求的同时更合理的使用资源。
OceanStor Dorado 18500 F V5(全闪):用于各类金融互联网型交易系统,如网银、手机银行、金融云平台等IOPS需求和波动较大的业务系统需求。
通过本次扩容,系统能保障高可用、高性能的同时,为不同业务提供最优访问路径和访问性能,适应了业务的多样变化,提升业务连续性。同时推进了我行数据存储层面的国产化进度,打破进口品牌存储的长期垄断地位。
同时本次升级,也是运维模式的一种改变。品牌选型方式从主观上的考虑品牌效应和厂商数据,转变为客观上以我行实测数据为选型标准。
(2)2020年存储采购,使用产品 OceanStor Dorado 18500 V6系列 全闪存储:
采购背景:
2、国产化及信创推动:
2020年,国家信创已完成3期试点,央行拟成立金融信创生态实验室,结合前期的国产化要求,未来金融行业信创必将规模化落地。
而 华为售后服务团队强大,服务的响应和及时度高,在其产品范围外也能按我行要求提供技术支持。同时产品测试性能优秀,故障率低,三线研发团队强大。华为是2018年唯一一家研发投入全球前50的中国企业。
因此,在经过详细测试后,采购了鲲鹏芯片的华为 OceanStor Dorado 18500 V6 高端存储,依然采用双机冗余,数据库数据同步的架构。
在本次的基础设施改造升级满足了高可靠、高性能、易管理、可演进的存储选型要求,联机交易业务峰值读时延基本低于1ms,性能大幅提升,同时逐步实现硬件自主可控。
(3) 存储资源优化方案
存储资源矩阵
由于数据中心存储数量和容量逐年增加,对应的系统级别和应用场景也各不相同,因此从资源最优化角度考虑,我行建立了出处资源矩阵,根据上线系统的定级、资源的需求来确定部署在哪套存储集群上,从而在保证系统高可用的情况下实现存储资源使用最佳方案。
矩阵数据在每次资源扩容后调整,系统资源需求如发生规划外增长或级别变更,华为存储产品可通过数据迁移工具进行同存储不同资源池或跨存储数据迁移,满足此类场景的变更需求。
建成收益
1、 联机交易业务峰值读时延0.5ms,时延相比之前业务高峰时 最大时延 1 0ms有了极大的减少 。
2、 同城存储同步复制升级为同城存储双活方案,避免存储单点故障,RTO<4H 缩短到RTO≈0。
3、 年度容灾演练切换时间从3个小时缩短到 1 个小时。
4、 新存储上线之后,将有效支撑直销银行服务用户从18年3000万向亿级迈进的目标,满足未来3~5年的扩展需求。
成效总结
通过这几年的项目建设实施,我行存储系统架构体系优化明显,对各业务系统提供的健壮的运行环境以及优秀的运行资源。
1、 提高了我行国产化和信创覆盖率,填补了信创方面的空白。
2、 降低了存储投入成本和运维成本,同时存储架构高可用更高更合理。
3、 满足各类业务系统的运行需求,显著提升了业务的处理效率。
4、 更灵活合理的使用资源、调度资源,实现不同业务不同场景下数据存储快速简易的使用。
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞3
添加新评论3 条评论
2022-09-05 15:45
2022-09-01 18:55
2022-07-18 14:25