《金融科技发展规划(2022~2025年)》《关于银行业保险业数字化转型的指导意见》《北京市关于加快建设全球数字经济标杆城市的实施方案》等文件陆续出台,数字化转型已经被主要商业银行定位为重要的高层战略目标,是未来业务高质量发展的核心驱动力之一。对于数字化转型的探索,国内商业银行已经经历了从业务信息化、互联网金融的1.0阶段到金融科技、中台建设的2.0阶段。关于如何开展“数字化转型”,随着国家政策、企业实践、专家观点越来越多,思路越来越宽,蓝图日渐清晰,能兼顾整体与局部数字化转型的实施方法成为业界专家探索的焦点。本文主要分享了某银行在系统平台规划建设、IT重要系统规划、存储国产化替换等大规模基础架构的升级重构过程。同时,重点对高端全闪存信创存储设备的建设规划进行了详细的阐述。
“加快构建全国一体化大数据中心体系,强化算力统筹智能调度,建设若干国家枢纽节点和大数据中心集群,建设 E 级和 10E 级超级计算中心。”这是《“十四五”规划和 2035 年远景目标纲要》在第十一章的“加快建设新型基础设施”中提到的目标。数据集中管理,将风险集中管控,对数据稳定性要求更高,需要在线交易业务7*24小时在线,业务不能中断,数据持续可访问;移动互联的高速发展,要求随时随地可交易,而且支持海量用户高并发访问,性能要求高;金融行业监管要求越来越严格,故障后损失巨大,处罚严格,银行业务中断半小时上报银监,证券核心中断5分钟即上报,金融企业压力大。传统的存储设备可能会面临数据不安全和性能瓶颈等问题,这会对银行业务的正常运转产生不利影响。需要从存储容量、性能、可靠性以及数据保护等方面进行全方位的保障,帮助银行建立高性能、安全、可靠的数据存储环境。
当前主流的存储容灾架构主要包括三种,主备、3DC、分布式。结合我行当前实际情况分析,我们选择了两地三中心容灾架构。按国家金融科技建设方针未来数据中心应向双活、多活数据中心演进,所以主备模式逐步被行业淘汰,留给我们选择的只有3DC和分布式两种。结合行业实践,应用和数据库80%以上为传统业务模式,此时若采用分布式架构会涉及业务改造、数据库改造等大量工作,项目建设周期过长,无法短期内完成银监局同城灾备建设要求。故采用小步快走,分步建设的策略。底层基于Oracle RAC数据库结合华为OceanStor Dorado 18500高端存储容灾方式入手,逐步完成双活、多数据中心建设目标。
(1)极大提升RPO和RTO指标:
数据同时下发到两个数据中心,生产数据和同城数据RPO=0,解决了数据高可靠问题,即使本地数据全部损坏,我们在同城有一份数据,只需在灾难发生的时候将同城数据分配给业务主机使用即可,大大减少业务灾难恢复时间,极大的缩短了业务RTO时间。采用双活技术,在本地单台存储故障的情况下,业务可以无感知的继续访问同城存储,无需做任何调整,解决了架构高可靠问题。存储双活可以很好的解决数据高可靠和架构高可靠的问题。
(2)为核心业务带来多种容灾手段:
对于A/A+类业务系统,传统主备容灾在实际使用中不能成为一种业务级别的容灾手段,只依靠数据库容灾,容灾手段单一,急需增加新的容灾手段。存储级双活容灾是我们的首选项。当突发灾难导致整个数据中心故障的时候我们可以采用数据库容灾技术快速进行业务恢复,计划内的切换可以使用双活技术快速完成切换与增量数据回切。
(3)投资保护与经验积累:
无状态APP业务在使用双活技术后配合负载均衡可以很好的做到双中心业务下发,甚至可以做到实时交易类业务运行在主中心,查询报表类业务运行在同城中心,充分利用同城ICT资源节省投资。双活架构下业务双数据中心下发对于未来双活数据中心改造和分布式业务改造走出了坚实的一步,可积累大量宝贵的经验。
(4)双活架构下未来业务演进更加灵活:
架构的规划和选择一定是量体裁衣的,不盲目跟风也不排斥新的技术,只选对的不选贵的才是最好的选择,整个数据中心的建设不是一蹴而就的工作,而是一个过程,头部大行能取得今天的容灾效果是一个逐步发展和建设的结果,在建设中做好解耦,可进可退,可随技术的发展灵活调整,让整个建设之路平滑顺畅才是我们应该有的选择。双活架构在演进方面非常灵活,退可改造成本地双活强化本地数据高可靠,进可形成环形3DC提高容灾韧性,方便后续多数据中心中架构下数据迁移与数据中心角色切换,随便变成主生产或是灾备数据中心。
(1)基于同城数据库容灾+异地数据中心存储复制的灾备建设:
数据同时下发到两个数据中心,生产数据和同城数据数据灾备,解决了数据高可靠问题,即使本地数据全部损坏,依托数据库层面的容灾能力,我们在同城有一份一摸一样的数据,只需在灾难发生的时候将同城数据分配给业务主机使用即可,大大减少业务灾难恢复时间,极大的减少了RTO。采用数据库容灾技术,在本地单台存储故障的情况下,业务可以无感知的继续访问同城存储,无需做任何调整,解决了架构高可靠问题。数据和架构的高可靠一直是我们追求的目标,可以很好的解决数据高可靠和架构高可靠的问题。
同时,该方案也在西安建立了利用存储复制能力构建的灾备中心,该中心能够在同城生产、灾备业务受影响时,存储层使用SAN存储加上远程复制功能将主机数据同步至异地灾备中心存储。在发生故障生产中心设备不可用时,拉起灾备中心存储上远程同步卷,快速恢复业务。
(2)采用同城数据库应用容灾与异地灾备中心存储复制的容灾设计:
OceanStor Dorado 存储系统异步远程复制采用了创新的多时间点缓存技术,现原理如下:
1) 当主站点的主LUN和远端复制站点的从LUN建立异步远程复制关系以后,默认情况下会启动一个初始同步,将主LUN数据全量拷贝到从LUN;
2) 初始同步完成后,从LUN数据状态变为“完整”(即从LUN为主LUN的过去某个时刻的一致性拷贝),然后开始按照下面的流程进行I/O处理。
图中序号说明:
a. 异步远程复制同步任务启动时,在主LUN和从LUN分别生成快照并更新时间点(主LUN快照X,从LUN快照X-1)。
b. 主机新写入的数据缓存在主LUN 缓存的时间点X+1中。
c. 响应主机写完成。
d. 将主LUN时间点X的数据基于DCL(Data Change Log)增量差异记录直接复制到从LUN。
e. 主从LUN各自将收到的数据下盘,同步完成后从LUN最新数据即为主LUN时间点X的完整数据。
(3)存储对传输网络的技术实施要求:
对于同步远程复制(HyperReplication/S)而言,每一个写请求都需要同时写到主站点和从站点以后才会返回生产主机写完成,在主站点和从站点相距较远的情况下,存储系统对前台应用程序的写延迟较高,不利于用户正常业务的运行。因此,同步远程复制(HyperReplication/S)主要应用于主站点和从站点相距较近、网络带宽较大的容灾场景,如同城灾备,一般要求城域网容灾距离 < 300km;最小连接带宽不小于64Mbps,传输延迟 < 1ms(单向),且网络真实带宽 > 业务的峰值写I/O带宽。
对于异步远程复制(HyperReplication/A)而言,存储系统对前台应用程序的写延迟与主站点和从站点的距离无关,所以异步远程复制(HyperReplication/A)适用于长距离或网络带宽有限情况下的容灾场景,一般对广域网容灾距离无明确限制;最小连接带宽不小于双向10Mbps,传输延迟 < 50ms(单向),且网络真实带宽 >业务的平均写I/O带宽。
(1) 全闪存技术优势
全闪存阵列的过程中,华为全闪存阵列通过了我行的各种测试,包括功能和性能测试,测试范围广,测试指标完善。在数据迁移功能测试中,通过Oracle数据库业务模拟,OceanStor Dorado 18500(NVMe)将原存储接管后,在线迁移到Dorado 18500(NVMe)本地的LUN,Oracle数据库数据正常,读写正常。在双活测试中,模拟两个数据中心站点,站点存储故障、站点传输链路故障、双活负载均衡流量分布、仲裁服务器故障(双活验证)、同步异步远程复制都通过了验证测试。基础功能包括在线重删功能、快照基础功能验证、RAID重构验证和VMware虚拟机启动都满足了我行的需求。通过对华为全闪存存储前期为期半个月的性能和功能测试,到后期真正部署到生产环境半年的时间,充分展现出了全闪存存储的技术优势。
(2)全闪存存储体系保障数据库性能
我行原使用SSD磁盘与传统机械硬盘的混合存储,由于SSD磁盘的容量有限,只能通过存储自身动态分层技术进行数据的动态调整。存储系统在后台不断进行运算发现热点,并进行热数据和冷数据之间的位置搬迁,此技术能解决一部分热点数据的性能要求,但是也会消耗系统的CPU,同时存在热点数据判断是否准确和及时、冷热数据迁移是否及时等问题。
新数据中心全面引入了全闪存体系结构。充分发挥了SSD的性能优势,传统存储和全闪存储在同等配置下,性能提高3倍,响应时间从4ms降低到1ms。除了性能提升之外,在功能上也有新的发展,提供了SRDF双活功能,提供了性能更好的快照技术,能够减少系统资源消耗,节省了磁盘空间。还能够提供从存储到备份设备的之间备份功能。
全闪存储的使用更好地提升了我行的数据存储能力,为我行日益复杂业务水平提供了最坚实可靠的基石保障。
(3)重删与压缩技术提供海量存储空间
在过去的十几年间,CPU的性能提升了8~10倍,DRAM速度提升7~9倍,网络速度提升100倍,Bus速度增长20倍,磁盘速度却仅仅增长了1.2倍,单位体积的存储容量增长也微乎其微——磁盘阵列已经成为IT系统中的短板。随着全闪时代的到来,高效的存储介质可以更好地提供服务,这就为很多领域的技术发展提供了突破口。例如,虚拟化使用全闪存方案,开启重删压缩机制,可以大幅度节省存储空间,提高存储利用率。我行在虚拟化发展长期实践过程中,总结出一套后端搭载全闪存存储架构的最佳实践方案,虚拟化层面使用精简置备,存储层面开启重删、压缩。存储端压缩前使用量与压缩后使用量比例达到3.7:1。而虚拟化端总置备量与存储端压缩后实际使用量比值更是达到了40:1的比例。而且针对银行多类高性能、低时延的数据诉求,全闪存储在节省空间的同时也提供了高效且可靠的数据保障。
整体的信创改造分为两条路线,一条路线为从单个业务系统的角度出发,重新构建一套全栈信创的资源池,双栈运行;另一条路线是从基座出发,做好信创蓝图,建设信创平台,分层改造,先构建硬件基座,应用逐步迁移。我行选择第二条路线作为我行整体信创改造的战略指导。在信创平台建设中,存储作为数据基础,所涉及的生态改造较少,所以在我行信创改造过程中,选择信创存储改造先行的策略。
经我行调研,当前分布式数据库存算一体的架构存在多个问题难以解决:
由于以上原因,我行在手机银行、网上银行等重要业务系统未来架构选型上延续存算分离的架构,在未来整体业务改造的情况下继续保持计算、网络、存储分层架构的架构。这样在未来全信创改造的过程中通过存算分离架构,首先可以实现计算和存储资源的精细化管理,缺容量就扩存储资源,二者比例不用绑定,避免资源浪费;第二生产和同城两个独立的数据库集群,确保一个集群故障或者升级,不影响另外一个集群,达成故障隔离目的,还能实现集群之间无缝切换;第三,使用双集群架构,继承Oracle存储过程代码,90%以上自动迁移,极大减少工作量降低改造风险;第四,存储的高可靠能力解决服务器本地盘方案各部件的可靠性短板,通过存储系统实现部件亚健康快速检测隔离、误码抖动检测和超时快速处理机制,避免IO Hang,提供更安全的数据存储底座。
业务创新是企业持续发展的驱动力,IT基础架构的革新在其中起着至关重要的作用。我行采用全闪存储平台技术在IT架构的转型过程中扮演了非常关键的角色,充分发挥了其支持我行构建开放、灵活的IT平台,资源随需所用,业务快速部署,满足不同场景应用需求。通过应用华为高端存储设备,我行成功实现了数据存储的高性能、高可靠性和高安全性,为我行的业务发展提供了坚实的技术支撑。未来我行将继续致力探索更加安全、稳定的数字化方案,推动金融业务的数字化转型。
协作专家:
关洋 辽宁农商银行 系统工程师
王之军 某城市商业银行 系统工程师
高剑 贵阳银行 存储工程师
程宗憬 某城市商业银行 存储工程师
邹迅 某城市商业银行 存储工程师顾问专家:
郭恺 哈尔滨银行 存储工程师
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞10
添加新评论5 条评论
2023-11-13 10:13
2023-11-10 18:38
2023-11-10 14:11
2023-11-10 14:09
2023-11-10 10:39