lzg21st
作者lzg21st2022-08-26 09:28
存储工程师, brcb

银行文件类数据存储系统架构优化实践经验分享——需求分析和技术路线篇

字数 3507阅读 4134评论 3赞 6

摘要:

近年来,银行业积累了越来越多的非结构化数据,在业务场景和存储系统建设上都在不断进行优化。本文以作者所在企业的业务需求以及存储系统优化实际出发,阐述使用NAS文件存储替换GPFS架构的需求分析、技术路线对比、迁移实践与最终使用华为高端NAS存储的使用成效,希望可以为同行带来一定的借鉴。

全文共分为三个部分:需求分析和技术路线篇、GPFS迁移实践篇、NAS存储使用经验和效果篇。

导语:

对于很多中小金融机构来讲,由于历史原因,企业的存储形态往往较为单一,存储系统并未做分类和分级建设。比如,对于集中式存储来讲,只有SAN存储,而并未使用NAS存储。这样一来,对于文件共享场景,很多企业有用到GPFS来构建分布式集群文件系统来满足业务系统文件共享场景需求。

实际上,GPFS是一种高性能的并行文件系统,其底座很多也是使用FC组网的SAN存储。GPFS大多适用于高性能计算场景,或者是和企业其他IT技术生态捆绑使用。另一方面,GPFS在构建同城或异地容灾时,也有一定的局限性,很多也是基于底层SAN存储来做的数据级容灾。

如果从企业的存储系统发展来看,随着企业存储管理的精细化,可以看到,GPFS和NAS的使用场景也开始逐渐分流,两种技术分别适用于不同的业务场景中,可以说两者是“术业有专攻”。对于低时延的高性能场景或者是多业务系统之间文件交互场景,即插即用的NAS存储可以说带来了极大的便利。此外,集中式的NAS存储也有成熟的双活以及异步复制解决方案,很好的匹配了企业的文件高可用性建设需求。

此外,在海量非结构化数据存储优化方面,对象存储技术扮演了重要角色。近年来,对象存储凭借其优异的成本优势、强大的横向和快速扩展能力以及丰富的服务接口特性在国内取得了快速发展,同时交付了很多成功案例。而对于传统的银行业,对象存储也有不少落地案例。从应用场景来看,主要用于对接ECM内容管理平台和备份系统的分层建设中。

一、背景和必要性

目前,我行的非结构化数据主要存储在构建于传统集中式块存储之上的IBM GPFS并行文件系统中。这些非结构化数据的文件数量和容量随着业务规模的发展呈逐年激增的趋势,而这种使用存储的方式灵活性不高,同时带来了过高的成本开销。

GPFS构建在FC SAN存储之上,消耗了较多的SAN存储资源以及中间的FC交换网络资源。而从使用场景来看,GPFS主要用于前端的应用服务器集群,随着行里云平台的广泛使用,这种应用服务器外联FC SAN存储的架构也给应用服务器入云带来了制约,进而由于消耗了更多的物理服务器也会带来额外的成本开销。另外,由于GPFS和数据库类的应用争抢存储资源,也给这些联机交易类系统带来了一定的性能冲击。随着行里的业务种类越来越丰富,不同类型数据的合理存放成为亟待解决的问题。

针对上述问题,我行2018年引入了中低端NAS存储设备,用于存储文件类的数据,为数据的分类存储提供了便利,使得存储的使用方式更趋于合理化。然而,按照我行存储资源池的分级架构建设规划,需要额外建设具备双活能力的高端NAS存储系统,满足GPFS场景中重要业务系统的文件共享需求和同城双活的高可用需求。为此,我行近两年来构建了高端NAS同城双活架构,同时,异地部署了一台低端NAS存储,进而实现了依托NAS存储复制技术的3DC高可用架构。而现有的中低端NAS存储,可以继续承载GPFS场景中的一般重要业务系统的文件存储需求。

除了非结构化数据存储架构优化之外,我行另一个需要逐步优化的场景是系统间的文件交互。目前,我行使用专门的文件传输工具进行各系统间的文件传递,软件架构较为复杂,同时运维难度也略大。此外,由于各业务系统分布在不同的网络区域,跨区的文件传输流量也会给各区域的边界防火墙带来性能压力。为此,我们可以借助NAS存储构建文件交互平台,不但省去了文件在各系统间的频繁传递,提高业务系统效率,同时,依托NAS存储的多网络区域覆盖能力,可以避免产生跨区流量,进而规避对边界防火墙的性能冲击。

下面两张图分别是NAS引进前、后的文件类数据存储系统高可用架构图:


实际上,在我行的整体存储体系和存储架构规划中,SAN存储、NAS存储和对象存储有其各自的定位和应用场景。SAN存储适用于存储结构化数据,如数据库类应用,满足其高并发、低延迟的高性能需求。NAS存储适用于多服务器共享文件场景或构建文件传输平台,对性能要求没有SAN存储高,但成本要低。对象存储适用于存储海量非结构化数据(文件、影印件、音视频等),当文件数量达到数十亿、存储容量达到几十PB以上的量级时,其性能和总体拥有成本较之于NAS更具优势。

二、技术路线对比

对于文件类数据存储的解决方案,实际上我们从业界不难看到基本包括分布式集群文件系统、分布式NAS存储、传统集中式NAS存储以及对象存储等。

这些存储技术各具特色,分别适用不同的业务场景。比如分布式集群文件系统或者称为并行文件系统解决方案,例如:GPFS、Cephfs、GlusterFS、HDFS、GFS等。对于这些集群文件系统,有些存在元数据节点,有些则是没有元数据节点的对称架构,另外在文件的分片尺寸上也略有区别,但总体上来讲,这些分布式文件系统或者是分布式NAS存储基本适用于高性能计算场景或者是大文件处理场景中。而对于一般文件共享场景以及多系统文件交互场景,采用传统集中式NAS存储则更为便捷。

如果从文件规模角度来看,对于文件数量在千万级以下,文件容量在百TB级别,传统NAS技术可以承载。而对于文件数量在亿级别,文件容量在几十PB以上的情况下,采用对象存储则更能凸显价值。

对象存储可以说是云存储中一个重要技术分支,是近年来在国内发展最快的存储形态之一。无论是在传统行业还是互联网行业都有很多落地案例。在架构体系形态上,由于对象存储用于存储和处理海量的非结构化数据,例如文件、图片、音视频、影印件等,所以要求其有强大的扩展能力,而无疑采用分布式架构更便于横向、快速的扩展。在应用形态上,对象存储暴露给前端的主要是S3协议,一种面向Web的RESTful API接口,需要前端应用针对这种特别的接口进行定制化开发。而为了兼容老的应用,对象存储在前端还可以进行特别“包装”,从而可以提供丰富的NAS接口协议,甚至和Hadoop大数据平台还有S3A接入适配协议。

从对象存储在银行业的应用场景来看,可以分为两个大类,分别是业务系统处理和历史数据备份及归档。在业务系统支持上,对象存储可以对接ECM内容管理平台,作为后端的数据存储系统。这样一方面可以有效发挥其处理海量非结构化数据的性能和成本优势。另一方面,对象存储还可以提供丰富的业务附加功能,如业务元数据Metadata标签,便于对业务数据做标记,提高业务数据快速检索能力。另一个场景可以用在备份系统的分层建设中。对象存储可以作为备份系统中磁带介质层的上层,用于作为近线备份的存储,提升历史数据的检索效率。此外,在大数据平台场景中,对象存储凭借S3A适配协议可以实现和大数据平台的对接,提供历史数据归档能力。

三、存储分类分级建设

通过项目实施,实现了我行NAS文件存储资源池的分级建设。随着NAS应用的推广和落地,逐渐降低了块存储使用成本,提高了存储的使用灵活度,实现不同类型业务数据的合理存储。特别是借助高端NAS存储设备构建同城双活架构,实现了重要业务系统对于文件存储的高可用需求。较之于先前的GPFS方案,在RPO同为0的情况下,RTO指标得到极大提升。最后,利用NAS存储构建业务系统间文件交互平台,显著提升了业务处理效率。

可以说,在企业IT基础架构优化中,很难有一种技术可以完美替代另一种技术。就如同对象存储的引入并不是对现有企业存储架构的彻底颠覆,而是一种技术的有力补充,分类分级建设的存储资源池可以匹配各自适用的业务场景。传统集中式SAN存储以其高并发、低延迟的特性,适用于数据库类业务场景。NAS文件存储资源池用于解决文件共享或者是系统间的文件交互场景。而对于音频、视频等非结构化数据的处理,采用对象存储则更为合理。正是这些技术的相互补充,才得以最大化地发挥各种技术的效能,从而更好地支撑前端业务系统的稳定、高效运行。

相关阅读:
银行文件类数据存储系统架构优化实践经验分享 ——GPFS迁移实践篇:
https://www.talkwithtrend.com/Article/263395

银行文件类数据存储系统架构优化实践经验分享——NAS存储使用经验和效果篇:
https://www.talkwithtrend.com/Article/263397

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

6

添加新评论3 条评论

lmspringlmspring存储工程师, 商业银行
2022-12-23 12:08
目前很多金融机构传统的业务系统还是采用了FC-SAN的存储访问架构,文件系统通过IBM的双活软件GPFS来实现,随着技术不断发展,技术不断成熟,海量的数据的产生,目前一种比较成熟的技术也不断的被应用,为NAS存储架构,NAS架构即能满足共享的要求,能能够结构简单化,便于我们后续运维和管理。同时也能够保障业务连续性。
pandzddpandzdd系统运维工程师, bank
2022-12-22 09:31
GPFS的共享存储功能是构建在SAN存储之上,集群中的每台服务器需要接入SAN网络并分配SAN存储,再由上层GPFS软件进行并行访问功能的设计和控制。GPFS集群的运行维护涉及PC服务器、SAN存储和GPFS软件三方面。 集中式NAS存储生态完善,在各大企业数据中心文件共享服务中占据很大比例。集中式NAS存储设备由机头和扩展柜组成,集成度高,部署和运维相对简单。从应用使用角度,当前主流集中式NAS的特性比较适合大量小文件存储的场景。
nkj2021nkj2021系统架构师, 金融行业
2022-11-21 20:16
现在很多中小金融机构只有SAN存储架构,通过GPFS来实现文件共享,随着业务系统的发 展,非结构化数据量越来越大,文件实行分级存储才能更有利于业务的发展,而NAS存储能提供更高的文件存储效率、更低的延迟、即插即用的NAS存储降低了运维的复杂性,同时NAS存储拥有成熟的灾备解决方案,能更好的提升业务的连续性。
Ctrl+Enter 发表

本文隶属于专栏

技术路线选型
不同趋势领域都有不同技术路线,不同行业的应用规模也有不同技术路线。通过对同一场景下不同技术路线的对比分析,帮助用户选择最适合企业发展需要的技术路线。

作者其他文章

相关文章

相关问题

相关资料