ugo911
作者ugo9112021-12-31 15:14
系统工程师, 银行

超融合技术在银行业的应用与实践

字数 3853阅读 4304评论 0赞 10

我行近年来通过计算虚拟化方案部署了大多数生产系统,但在该模式下面临基础设施部署复杂、系统备份易失效、多数据中心容灾技术仅依靠存储复制等问题。本文通过浅析业界主流的超融合技术,探讨商业银行数据中心通过该项技术解决基础设施在数据中心诸多问题,检验超融合架构助力银行业务发展、优化数据中心技术架构的能力。

1 银行业超融合建设实践

1.1 超融合设备的分布式存储

超融合技术提供的分布式存储在解决上述问题中发挥了重要作用。分布式存储架构依托于数据虚拟化平台,该平台是由虚拟控制器与存储加速模块组成。虚拟控制器在整体架构中扮演着最重要角色。集群中每一个节点上都需要部署虚拟控制器,负责每个节点的所有I/O访问控制以及数据块的重删;存储加速模块提供数据存储管理、在线复制、在线压缩以及数据写入优化的功能,这个加速模块的核心价值在于将计算虚拟化资源与分布式存储I/O的计算资源进行了隔离,对写入的数据做重删和压缩等I/O密集型操作时不会影响应用系统的性能。超融合单节点架构解析如图一所示。

以上架构保证了通过数据虚拟化平台能够高效地完成业务系统部署、数据备份、恢复、虚拟机克隆及迁移。

1.1 数据架构

超融合系统的数据架构依托于一个全局感知的文件系统和对象存储来实现数据优化和数据服务能力,正是这样的能力使我们选择了超融合架构。它直接介入到底层数据,转移了基础架构组件的管理重心,从三位一体架构中面向LUN或数据存储的维护,转移到关注应用系统负载和虚拟机运行级别。

这样的数据架构需要紧紧依靠重复数据删除和压缩功能来提高数据的读写效率。这些关键功能可以有效满足现代化数据中心的核心需求,一是高效的存储利用率,基于重复数据消除、压缩和软件定义的卓越效果,在最终的I/O落盘环节,所需的物理磁盘容量显著减少,在高负载下的磁盘读写性能得到极大优化,有效提升了存储的容量承载能力。二是显著降低了容灾带宽需求,使用经过删除和压缩后的数据传输到灾备中心,这使容灾备份更加高效,并节省了大量带宽资源。三是增强了数据的灵活性,计算虚拟化的一个基本原则是保证虚拟机的灵活性,但是由于虚拟机的磁盘容量日益增大,未优化的数据结构会严重降低虚拟机在传统基础设施环境中的灵活性。对数据进行重复数据消除和压缩后,例如基于时间点复制、将虚拟机在不同集群之间进行迁移以及将数据复制到远端的数据中心都会变得更容易且高效。四是I/O性能得到增强,由于在将数据写入磁盘之前,数据会进行重复数据消除、压缩,因此它有助于减少不必要的磁盘写入操作,从而节省I/OPS并提高总体性能。

1.2 存储加速模块

数据虚拟化平台在数据写入存储时,保证数据安全性的最佳方案是实时执行重复数据删除、压缩和优化。市面上很多方案属于后置重复数据删除方式,由于数据已实际被写入、读取,之后又进行重复数据删除与压缩及再次写入,会消耗更多的I/OPS,致使存储平台的整体负载增加,显然不是适宜的解决方案。

如果实时重复数据删除更好,那么为什么它没有更流行呢?这是因为对计算性能的严苛要求。重复数据删除是一个计算资源密集型过程。指针和索引需要根据数据的变化进行实时更新,举例来看,一个管理单位是8kb的块以800mb/s的速度接收数据的系统需要每秒执行10万次这样的操作,这对计算性能是一个极大挑战。

现在超融合的存储加速模块解决了这一难题,这是一种以独立硬件或软件模块形式提供超高速写处理能力以及数据缓存服务而不影响业务性能,并受到掉电数据保护、可处理重复数据消除和压缩等计算密集型任务的模块。

将数据去重和压缩的运算分配给存储加速模块来执行,即可实现数据流实时读写同时不影响性能、不造成延迟。它解决了生产环境基础架构中系统重复数据删除及压缩的核心需求的瓶颈,包括:实时执行重删、压缩、永久储存、集群内与集群间的数据重删、重删过程中不带来性能影响。

1.3 全局分布式存储的价值

单个超融合基础架构系统中进行重复数据消除可以提供极高效率和成本节约,但是全局分布式存储才是超融合架构的真正价值所在。以重复数据消除为核心功能的数据虚拟化平台体系结构经过了设计和优化,可在本地(如银行主数据中心)和远程(如异地灾备中心)的全局分布式存储中管理一组数量庞大的细粒度数据元素。当数据从一个集群复制到另一个集群时,全局分布式存储技术允许集群中的每个节点充分了解远端集群上的数据分布情况,只有远端集群上不存在的数据块才会传输。这种站点间数据复制的效果非常显著。例如,全局集群中新建虚拟机的第一次复制时,仅需要传输微量的差异数据即可完成远端灾备复制。因为两个运行通用操作系统(如Windows的虚拟机)的虚拟机都将有大量的通用数据元素。数据虚拟化平台可识别任何远程站点上现有的冗余数据,只允许发送真正唯一的数据元素。与我行传统的数据复制方式相比,不仅释放核心存储压力,也有效提升恢复时间目标(RTO)和恢复点目标(RPO)保障能力。

2 超融合技术在银行业的应用场景及其优势

2.1 超融合架构备份的优势

在传统的虚拟化环境中,如果需要完成一个虚拟机的备份,通常使用克隆或者快照的方式来完成。在此种模式下,系统管理员经常要面临时间过久备份失效或者备份不及时的情况,如果通过自动化作业来进行备份,又不得不考虑大批量I/O带来的性能问题以及海量存储需求。

在超融合架构中,通过上述技术能力可以快速完成一个虚拟机的本地备份或者跨集群备份,跨集群备份也因虚拟机所处的数据全局分布式存储网是互通的,而可以很快完成备份。即便是原始数据全部丢失的情况下,都能立即将虚拟机启动,从而提高了基础设施对业务连续性的保障能力。同时在备份时几乎不会影响集群的运行性能。减少备份窗口也意味着对业务系统的影响将会更小。这也意味着该平台可以更频繁地设置备份拷贝以支持更加细粒度的RPO和RTO。

2.2 多数据中心容灾的优势

我行一直依靠存储LUN级别的数据复制模式完成“两地多中心”容灾模式,随着近几年小型机应用系统下移以及新建系统的分布式趋势,高成本的核心存储容量已经捉襟见肘。大量高并发的业务系统在主中心的存储上每完成一次I/O写入,都会有对应的数据块同步传输到远端数据中心,这对网络带宽提出了很高的要求,也是对我行基础架构性能的一个挑战。

系统管理员一方面需要将一些重要程度较低的虚拟机从核心存储上迁移出来,另一方面还得持续关注灾备网络带宽的占用情况。一个典型例子是我行在夜间批量任务的时候经常发生核心存储异地数据复制中断的情况,就是因为两个数据中心之间100Mb的网络带宽无法支撑这样频繁的I/O写入,扩容到200Mb后这个问题才得以缓解。而现在使用超融合架构后,超融合的分布式存储平台会首先完成预传送数据块的计算,最后仅传送非重复的有效I/O。虚拟化数据平台实现了跨数据中心的移动性和灵活性,这样高效快速的备份意味着链路带宽和时间成本得到降低。

如图二示例,对虚拟机01发起容灾备份,因两中心超融合集群内已存在若干虚拟机以及重复数据块,经过超融合存储层计算,仅需要传输“C、N、G”三个数据块即可完成虚拟机01的容灾备份,这相对于传统的备份方式,效率极大提升。

图二 全局分布式存储容灾

2.3 测试中心的优势

由于银行业对业务系统稳定性的较高要求,为保障新业务稳定上线,一般需要在上线前经过多轮测试。为支撑测试需求,一般需要在测试环境建立数套业务系统满足SIT和UAT测试,如果在传统架构下,不得不消耗大量的存储资源,同时需要花费大量的人力和时间在部署系统与等待数据复制的任务上。而在超融合系统的技术支撑下,通过全局的重删压缩技术为用户带来的是最大的空间利用率,可以获得较高的重删压缩比,只要整体虚拟机的部署方式设计得当,就可以节约大量的存储空间。

3 超融合技术实施过程中的关注事项与风险识别

3.1 五项关注事项与风险识别

1)因为超融合架构中分布式存储的技术需要,需要建立一张能够满足全局分布式存储网连接需求的TCPIP网络,它在未来将逐渐取代基础设施国产化中无法替代的SAN网络。

2)重删压缩后存放于分布式存储的数据安全性需要重点关注。在虚拟化环境下一旦发生数据丢失,如果没有备份,很难通过数据恢复技术将数据找出来,更何况再次经过数据虚拟化平台重删和压缩过的数据。所以不建议将重要系统的数据库节点部署在超融合平台。对于重要系统的应用节点,建议仍在传统平台上仍然保留一份双活架构的节点;如果是单体式应用,则需要通过第三方平台做好备份策略,以备不时之需。

3)超融合架构因根据最佳实践经验,设计最优化的部署方式。深入了解超融合架构的特性,结合自身生产环境的建设情况与亟待解决的技术痛点,定制化部署系统,以获得更加优化的资源配置。

4)在选择某一厂商超融合产品的同时,必定存在软件被绑定的情况。对于银行金融科技来说,每次选择一种技术路线,都存在将自己置身于风险中。如何识别风险、规避风险,我们认为这需要综合厂商的技术成熟度、支撑能力、服务能力、投入意愿及技术路线的普及程度做出考量。

5)超融合架构并不能解决所有问题,引入超融合仅仅是让基础架构更加灵活,增强了基础设施的灵活度,解决一部分传统架构中不能解决的问题。超融合架构对于网络虚拟化、安全虚拟化方面还暂未有突出表现,因此在超融合平台的建设中需要结合多方技术与优势,根据自身技术需求选择合适的产品。

作者成员:贵阳银行信息科技部 何欣 朱沛风 韦宇光 高剑 董银川(文章同发金融电子化杂志)

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

10

添加新评论0 条评论

Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

作者其他文章

相关文章

相关问题

相关资料

X社区推广