lzg21st
作者lzg21st·2022-08-26 09:37
存储工程师·brcb

银行文件类数据存储系统架构优化实践经验分享——NAS存储使用经验和效果篇

字数 3850阅读 4808评论 2赞 5

导语:

数据只有做好分类存储和管理,才能发挥基础设施的最大效能。为此,行里从2018年开始引入中低端NAS存储,到目前NAS存储的3DC架构落地,完备的NAS存储资源池为我行非结构化数据存储系统架构优化提供了基础设施平台。通过近年来NAS存储的推广使用,逐渐降低了块存储使用成本,提高了存储的使用灵活度,实现了不同类型业务数据的合理存储。

如果说FC网络是传统集中式SAN存储的核心,那么IP网络无疑是NAS存储的关键。因此,在配置NAS存储时,特别是对于跨数据中心的NAS双活架构的搭建,提前规划好各张不同功能的网络就显得尤为重要了。此外,通过结合业务使用场景,充分利用华为NAS存储提供的租户特性,不但实现了业务系统间的安全隔离,同时也实现了基于单个业务系统的细粒度灾备切换能力。

一、技术方案

从2018年开始引入中低端NAS存储,到高端NAS双活系统投产,以及如今的NAS 3DC架构的落地,完备的NAS存储资源池为我行非结构化数据存储系统架构优化提供了基础设施平台。下图是我行两地三中心的NAS存储架构,最左面是采用本地部署模式的低端NAS存储系统,右面部分是华为的两地三中心NAS架构,它是采用cascade串行级联模式的数据复制架构。

下面将重点剖析NAS双活架构。两台华为高端18500双活NAS设备分别部署在我行生产机房和同城灾备机房,构建同城NAS双活系统,为我行新核心、重要以及重要支撑系统提供文件交互、文件共享服务和文件高可用容灾服务。

(一)网络架构

图二是华为高端NAS双活系统网络拓扑图。

整个网络架构共涉及4个网络平面,分别是业务网络平面、复制网络平面、仲裁网络平面以及管理网络平面。每张网络的拓扑和功能介绍如下:

Ø 业务网络平面
高端NAS双活系统同时接入新核心区和业务三区,其中A、B控接入业务三区;C、D控接入新核心区,形成两个故障漂移组(fail group)。每个控制器通过2条10GbE光纤接入业务交换机,形成一个20GbE的端口组(LACP)。接入同一网络区域的控制器之间采用A-A(双active)互备的工作模式,当任一个控制器出现硬件故障或业务网络中断时,存储系统会自动将业务地址切换到另一个活动的控制器上,切换时间控制在5秒以内,对前端业务系统可以做到无感知。

Ø 复制网络平面
每台存储通过4个40GbE的全互联连接接入2台40GbE的内部复制交换机,两中心的4台复制交换机通过2条平行连接的10GbE DWDM线路连接,构建了NAS同城双活数据复制链路。通过存储系统内部的配置,共形成8条负载均衡的冗余ISL(Inter Switch Link)数据复制链路。

Ø 仲裁网络平面
每台存储设备通过2块仲裁网卡,和2台仲裁物理服务器(HA主备架构)构建成2个独立vlan的高可用仲裁网络。对于仲裁模块,从仲裁网络链路到仲裁软件,再到底层的仲裁服务器均实现了双冗余,规避了仲裁系统的单点故障,从而极大提升了仲裁的高可用性。

Ø 管理网络平面
每台存储通过2个管理网口接入网管网,用于存储设备的日常管理和存储监控管理。

如上所述,高端NAS双活系统的网络按照功能划分为四个物理隔离的平行网络平面,每个网络平面只承载各自功能模块的流量。这样的网络架构设计,既保证了各个网络的安全性,也提升了每个网络平面的吞吐性能。

业务网络平面既可以支持两中心大二层打通的网络架构,也支持不打通大二层,使用各中心独立IP地址的方案。为了遵从我行整体的网络规划,我们采用了后者即独立IP的方案。两种网络架构在存储端的RTO指标是一致的,而最主要的区别主要在于大二层打通的架构可以获得更好的主机端全局的RTO指标。在大二层打通的情况下,当发生站点切换时,主机侧可以无感知的恢复NAS连接。而对于独立IP的方案,需要主机侧重新执行NAS存储的挂载。为了近一步提升该方案中主机侧的RTO指标,利用我行自动化灾备切换系统编排NAS站点切换流程,定制了各系统的切换脚本。脚本的核心逻辑是这样的:第一,更改客户端操作系统中的NAS自动挂载命令。将主站点的挂载命令注释掉,同时去掉从站点挂载命令的注释。第二,卸载主站点的NAS挂载。如果遇到卸载失败的情况,需要判断是否有进程占用,如果有应用进程占用导致无法卸载,则需要停止应用程序再卸载主站点的NAS挂载。第三,挂载从站点的NAS。如果在第二步中停止了应用程序,则需要在从站点的NAS成功挂载后启动应用程序。对于回切流程,也按照上述同样的逻辑进行回切脚本设计。

(二)软件架构

在软件层面,为了提升安全性和易管理性,华为高端NAS系统采用基于租户的方式实现业务系统逻辑隔离。租户是文件系统、网络逻辑端口的存储资源集合。针对我行的实际业务场景,设计了两类租户,一类是业务系统交互,另一类是业务系统独自使用。对于业务系统间交互的租户,会按照业务系统网络区域配置不同的逻辑端口,业务系统会使用同区域的网络端口接入NAS存储,从而提升存储访问效率,同时还能规避边界网络防火墙的跨区流量。

除了安全性、易管理性和性能因素外,租户也是华为高端NAS双活系统细粒度站点级容灾的底层支撑要素。每个租户在双活架构下会配置双活租户pair对,由于双活租户pair是双活系统的最小单元,因此,可以实现基于单个业务系统的站点级灾备切换方案。下图是双活租户pair的管理界面,从中可以清晰的看到双活租户pair以及文件系统双活pair的运行状态。

NAS存储的另一层数据保护是基于文件系统的快照功能。通过快照技术,可以实现一定时间段内对文件历史版本的回溯以及找回被误删除的文件等。可以针对每个业务系统的需求定制不同的快照和快照保留策略。此外,可以灵活定制每个文件系统的快照预留空间,当快照预留空间剩余不足时,最早的快照将被自动清除。

在数据备份方面,使用NDMP协议实现Server-Free的备份架构。在这种架构下,业务数据可以从NAS存储端直接备份到磁带库中,而不通过前端客户机操作系统中转。因此,不但可以提升数据备份效率,更重要的是,可以大幅降低数据备份对业务系统的性能影响。

二、NAS存储使用规范

NAS存储在权限管理和控制方面,总体来说,主要包括客户端授权以及用户管理两方面。在用户管理方面,通过综合考虑我行的实际业务特性、应用场景和使用规模,最终选择了本地用户管理策略,也就是说NAS存储未接入AD域或者使用LDAP。所以对于CIFS协议来讲,通过使用NAS存储本地用户实现Windows客户端的用户管理和文件系统共享权限控制。而对于NFS协议,在客户端IP授权之外,则采用客户端本地的传统SYSTEM级ACL策略实现文件的权限控制。

基于上述权限控制方案,结合我行实际的业务场景,制定出了详细的NAS使用规范。主要分为上文提到的单业务系统使用场景和不同业务系统间的文件交互场景。对于单业务系统使用场景,需要应用系统集群的各节点服务器使用同样的应用用户访问NFS共享,考虑到Linux操作系统的ACL授权机制,需要各节点的这个应用用户有相同的UID和GID设置。而对于不同业务系统间的文件交互场景,NAS存储端按照实际业务需求控制不同业务系统客户端服务器对同一共享文件系统的读写和只读权限,共享文件系统中的文件和目录权限通过设置子目录实现细粒度的权限控制。各业务系统在共享文件系统挂载点目录下建立独立的子目录,各子目录由对应的业务系统的实际需求进行权限设置。原则上,禁止跨业务系统子目录进行写入、删除和更改操作,跨业务系统子目录只允许只读操作。

除了NAS的权限和用户管理,对于客户端的挂载也要按照最佳实践进行配置。

首先,对于客户端NFS文件系统本地挂载点的选择,要避免使用“嵌套”目录,也就是说客户端挂载点是根文件系统(根目录)下的独立空目录,不能是其他非根文件系统下的子目录。这样在技术上可以规避上层文件系统异常对NFS共享文件系统的影响。另外,NFS的挂载选项里有很多可以调优的参数,这里面可以根据实际情况,结合NAS厂商白皮书提供的建议进行设置。最后,为了提高文件访问性能,高端NAS存储接入了多个网络区域,以便提供给不同网络区域中的业务系统使用,从而规避边界防火墙对跨网络区域文件访问的性能影响。因此,各网络区域中的客户端要通过相应区域的存储前端业务网络接入。

三、收效和总结

NAS存储系统自投产以来运行平稳高效,其中的高端双活NAS存储平台已经承载了和新核心银行系统交互的50多个业务系统场景。截止目前,已经完成了六个批次系统的GPFS迁移,项目收效良好。

通过项目实施,实现了我行NAS文件存储资源池的分级建设。随着NAS应用的推广和落地,逐渐降低了块存储使用成本,提高了存储的使用灵活度,实现不同类型业务数据的合理存储。特别是借助高端NAS存储设备构建同城双活架构,实现了重要业务系统对于文件存储的高可用需求。较之于先前的GPFS方案,在RPO同为0的情况下,RTO指标得到极大提升。最后,利用NAS存储构建业务系统间文件交互平台,显著提升了业务处理效率。

相关阅读:
银行文件类数据存储系统架构优化实践经验分享——需求分析和技术路线篇:
https://www.talkwithtrend.com/Article/260799

银行文件类数据存储系统架构优化实践经验分享 ——GPFS迁移实践篇:
https://www.talkwithtrend.com/Article/263395

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

5

添加新评论2 条评论

pandzddpandzdd系统运维工程师bank
2022-12-22 09:33
集中式NAS存储生态完善,在各大企业数据中心文件共享服务中占据很大比例。集中式NAS存储设备由机头和扩展柜组成,集成度高,部署和运维相对简单。从应用使用角度,当前主流集中式NAS的特性比较适合大量小文件存储的场景。
nkj2021nkj2021系统架构师某证券企业
2022-12-21 11:38
本文较详细的描述了NAS存储在两地三中心容灾架构中的部署 ,分别从业务网络平面、复制网络平面、仲裁网络平面以及 管理网络平面四个平面进行阐述,具有很好的借鉴意义。
Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

作者其他文章

相关文章

相关问题

相关资料

X社区推广