lzg21st
作者lzg21st2021-10-19 16:37
存储工程师, brcb

某银行核心系统基于华为高端NAS存储双活实践

字数 6541阅读 3198评论 3赞 7

摘要:

对于中小金融机构来讲,由于历史原因和早期有限的业务场景,大多存储协议都较为单一,主要以集中式SAN存储为主。随着企业的业务发展,非结构化数据不断积聚,而且其年增长率要远高于结构化数据。同时,非结构化数据也变得更加重要。无论是对业务本身,还是做数据挖掘,这些非结构化数据已经成为各企业的宝贵资产。为了解决不同类型数据的合理存放问题,各企业都开始优化存储架构。集中式FC SAN存储以其高吞吐、低延迟特性满足数据库类的应用场景。NAS文件存储以其组网简单,即插即用的特性,满足业务系统文件共享的需求。而对象存储则用于处理海量非结构化数据。

近年来,随着我行业务系统和业务规模的快速发展,业务系统已经积累了越来越多的非结构化数据。但这些非结构化数据基本都存储在传统集中式的块存储中。其中文件类的数据存放在构建在块存储之上的IBM GPFS并行文件系统上。为了优化文件类数据的存储,拟采用NAS文件存储替换GPFS架构。此外,依托NAS存储构建文件交互平台。本文阐述了我行基于华为高端NAS存储双活项目建设背景和必要性、建设方案、项目创新点、技术方案以及项目成效等。

一、 项目背景和建设必要性

目前,我行的非结构化数据主要存储在构建于传统集中式块存储之上的 IBM GPFS并行文件系统中。这些非结构化数据的文件数量和容量随着业务规模的发展呈逐年激增的趋势,而这种使用存储的方式灵活性不高,同时带来了过高的成本开销。 GPFS 构建在FC SAN存储之上,消耗了较多的SAN存储资源以及中间的FC交换网络资源。另外,由于和数据库类的应用争抢存储资源,也给这些联机交易类系统带来了一定的性能冲击。随着行里的业务种类越来越丰富,不同类型数据的合理存放成为亟待解决的问题。

为此,我行2018年引入了中低端NAS存储设备,用于存储文件类的数据,为数据的分类存储提供了便利,使得存储的使用方式更趋于合理化。然而,按照我行存储资源池的分级架构建设规划,需要额外建设具备双活能力的高端NAS存储系统,满足GPFS场景中重要业务系统的文件共享需求和同城双活的高可用需求。而现有的中低端NAS存储,可以继续承载GPFS场景中的一般重要业务系统的文件存储需求。

除了非结构化数据存储架构优化之外,我行另一个需要逐步优化的场景是系统间的文件交互。目前,我行使用专门的文件传输工具进行各系统间的文件传递,软件架构较为复杂,同时运维难度也略大。此外,由于各业务系统分布在不同的网络区域,跨区的文件传输流量也会给各区域的边界防火墙带来性能压力。为此,我们可以借助NAS存储构建文件交互平台,不但省去了文件在各系统间的频繁传递,提高业务系统效率,同时,依托NAS存储的多网络区域覆盖能力,可以避免产生跨区流量,进而规避对边界防火墙的性能冲击。

二、 项目建设方案和POC测试

由于我行首次引入高端NAS双活系统,因此在运维人员技术储备和项目实施技术细节的全面掌控上以及开发人员对NAS存储平台的使用经验上比较欠缺,所以项目立项之初需要进行详细的项目架构规划。

首先,运维中心作为项目的建设部门积极和开发中心进行沟通,收集业务系统使用场景和需求。然后,和业界主流NAS存储厂商以及银行同业进行技术交流,探讨NAS双活平台的使用场景以及技术实现方案。最后,选取了在NAS存储双活细分领域领先的两家厂商进行了长达5个月的产品POC测试。在测试的过程中,运维人员全程深度参与,测试用例涵盖6大使用场景以及20个高可用场景。在高可用测试场景中,主要包括了仲裁到主存储链路故障、仲裁到备存储链路故障、两中心间复制ISL链路故障、仲裁故障、主存储故障以及备存储故障等单点故障场景以及ISL链路故障且仲裁到主存储链路故障、主存储故障且仲裁服务器故障等双点故障场景。

测试主机端采用vdbench IO仿真软件持续下发IO模拟业务操作,在各种故障场景中记录软件的IO中断时间,用以评估是否满足实际的业务场景需求。此外,对于双点故障中的仲裁服务器故障且主存储故障场景,会因哪个先发生故障产生不同的结果。如果主存储先发生故障,此时由于仲裁服务器存活,那么仲裁功能还生效,所以从端会自动被仲裁判活拉起来提供服务。然而,当仲裁服务器先发生故障后,此时仲裁模式会由仲裁服务器模式切换为静态优先级模式,如果主存储再发生故障,是需要手工拉起从端存储的。


表一 华为高端NAS双活系统在各种故障场景下的测试结果

在华为高端NAS存储双活系统POC测试过程中,除了上面的高可用场景外,我们重点测试了华为NAS双活系统特有的基于租户的单业务系统主从切换功能(RTO指标参见表一中的第一个测试项)。该功能不但可以很好地满足我行每年定期开展的针对各系统的计划性灾备切换演练工作,而且通过租户隔离极大地提升了业务系统的安全性以及维护的便捷性和灵活性。

通过详细的测试,不但验证了华为高端NAS双活产品可以满足我行的业务需求,也验证了在各种故障场景下,华为高端NAS双活系统的架构健壮性。同时,运维人员在测试过程中也积累了丰富的产品使用经验。

结合业界现有的技术和实施经验,以及我行的实际需求,我们采购了2台华为OceanStor18 000 系列全闪高端存储,华为OceanStor 18000系列是全新一代高端全闪存存储系统,为企业关键业务提供最高水平的数据服务。具备创新的高可靠SmartMatrix架构、更高的扩展性、全闪存设计的高性能以及面向混合云的演进方案,满足大型数据库OLTP/OLAP、云计算等各种应用的数据存储需求,与我行的应用需求与发展要求相符合。

三、 项目创新点

本项目的创新可以分为管理创新和技术创新两个方面。在管理维度, 首先,通过华为高端双活NAS存储系统的引入,完善了我行NAS文件存储的分级资源池建设,满足了我行业务系统分级建设的需求。 中低端NAS存储资源池采用生产中心本地部署模式,满足我行一般重要和较重要业务系统的文件共享需求。 华为高端双活NAS存储资源池满足我行核心系统、重要和重要支撑系统的文件共享需求以及文件跨中心的高可用需求。 其次,通过项目建设,近一步优化了我行非结构化数据存储系统架构,不同类型业务数据的存储布局更加合理,实现了降本增效。最后,项目建设本身也完成了一次管理创新,通过立项前的深度POC测试,提升了运维人员的技能,运维中心和开发中心的紧密联动也很好地保证了项目建设质量和我行信息系统建设和运维的规范性。

在技术创新方面,第一,同城双中心高端NAS双活是银行业相对较少的实施案例,提升了我行重要业务系统文件类数据的地域级抗风险能力。第二,对于高端存储,我行从物理层面隔离SAN结构化数据和NAS文件类非结构化数据,在提升了存储系统可管理性外也规避了两种不同特性的IO对存储资源的争抢和性能干扰。第三,在高端NAS双活系统实施方面,我们采用四网隔离的方案,实现了业务网、数据复制网、仲裁网和管理网络的分离,提升了网络安全性和性能。此外,双活系统采用了物理主备双仲裁双隔离VLAN的方案,极大提升了双活系统的健壮性。第四,借助双活系统提供的租户特性,实现了不同于其他整体存储切换方案的基于单业务系统的细粒度站点级灾备切换方案。第五,借助NAS系统构建了文件交互平台,在提高业务系统效率的同时,也避免了先前方案中文件传输软件带来的跨区流量,进而规避了对边界网络防火墙的性能冲击。

# 四、 技术方案

按照前期规划,两台华为 OceanStor 18000 系列全闪存储双活NAS设备分别部署在我行亦庄机房和空港机房,构建同城NAS双活系统,为我行新核心、重要以及重要支撑系统提供文件交互、文件共享服务和文件高可用容灾服务。

(一)网络架构

图一是华为高端NAS双活系统网络拓扑图。

图一 华为高端NAS双活系统网络拓扑图

整个网络架构共涉及4个网络平面,分别是业务网络平面、复制网络平面、仲裁网络平面以及管理网络平面。每张网络的拓扑和功能介绍如下:

  • 业务网络 平面

    高端NAS双活系统同时接入新核心区和业务三区,其中A、B控接入业务三区;C、D控接入新核心区,形成两个故障漂移组(fail group)。每个控制器通过2条10GbE光纤接入业务交换机,形成一个20GbE的端口组(LACP) 。接入同一网络区域的控制器之间采用A-A(双active)互备的工作模式,当任一个控制器出现硬件故障或业务网络中断时,存储系统会自动将业务地址切换到另一个活动的控制器上,切换时间控制在5秒以内,对前端业务系统可以做到无感知。

  • 复制网络 平面

    每台存储通过4个40GbE的全互联连接接入2台40GbE的内部复制交换机,两中心的4台复制交换机通过2条平行连接的10GbE DWDM线路连接,构建了NAS同城双活数据复制链路 。通过存储系统内部的配置,共形成8条负载均衡的冗余ISL(Inter Switch Link)数据复制链路。

  • 仲裁网络 平面

    每台存储设备通过2块仲裁网卡,和2台仲裁物理服务器(HA主备架构)构建成2个独立vlan的高可用仲裁网络 。对于仲裁模块,从仲裁网络链路到仲裁软件,再到底层的仲裁服务器均实现了双冗余,规避了仲裁系统的单点故障,从而极大提升了仲裁的高可用性。

    图二复制和仲裁链路

  • 管理网络 平面

    每台存储通过2个管理网口接入网管网,用于存储设备的日常管理和存储监控管理 。

    如上所述,高端NAS双活系统的网络按照功能划分为四个物理隔离的平行网络平面,每个网络平面只承载各自功能模块的流量。这样的网络架构设计,既保证了各个网络的安全性,也提升了每个网络平面的吞吐性能。

    业务网络平面既可以支持两中心大二层打通的网络架构,也支持不打通大二层,使用各中心独立IP地址的方案。为了遵从我行整体的网络规划,我们采用了后者即独立IP的方案。两种网络架构在存储端的RTO指标是一致的,而最主要的区别主要在于大二层打通的架构可以获得更好的主机端全局的RTO指标。在大二层打通的情况下,当发生站点切换时,主机侧可以无感知的恢复NAS连接。而对于独立IP的方案,需要主机侧重新执行NAS存储的挂载。为了近一步提升该方案中主机侧的RTO指标,利用我行自动化灾备切换系统编排NAS站点切换流程,定制了各系统的切换脚本。

(二)软件架构

在软件层面,为了提升安全性和易管理性,华为高端NAS系统采用基于租户的方式实现业务系统逻辑隔离。租户是文件系统、网络逻辑端口的存储资源集合。针对我行的实际业务场景,设计了两类租户,一类是业务系统交互,另一类是业务系统独自使用。对于业务系统间交互的租户,会按照业务系统网络区域配置不同的逻辑端口,业务系统会使用同区域的网络端口接入NAS存储,从而提升存储访问效率,同时还能规避边界网络防火墙的跨区流量。

除了安全性、易管理性和性能因素外,租户也是华为高端NAS双活系统细粒度站点级容灾的底层支撑要素。每个租户在双活架构下会配置双活租户pair对,由于双活租户pair是双活系统的最小单元,因此,可以实现基于单个业务系统的站点级灾备切换方案。下图是双活租户pair的管理界面,从中可以清晰的看到双活租户pair以及文件系统双活pair的运行状态。

图三 双活租户PAIR和文件系统双活PAIR

NAS存储的另一层数据保护是基于文件系统的快照功能。通过快照技术,可以实现一定时间段内对文件历史版本的回溯以及找回被误删除的文件等。可以针对每个业务系统的需求定制不同的快照和快照保留策略。此外,可以灵活定制每个文件系统的快照预留空间,当快照预留空间剩余不足时,最早的快照将被自动清除。

在数据备份方面,使用NDMP协议实现Server-Free的备份架构。在这种架构下,业务数据可以从NAS存储端直接备份到磁带库中,而不通过前端客户机操作系统中转。因此,不但可以提升数据备份效率,更重要的是,可以大幅降低数据备份对业务系统的性能影响。

(三) 使用规范

NAS存储在权限管理和控制方面,总体来说,主要包括客户端授权以及用户管理两方面。在用户管理方面,通过综合考虑我行的实际业务特性、应用场景和使用规模,最终选择了本地用户管理策略,也就是说NAS存储未接入AD域或者使用LDAP。所以对于CIFS协议来讲,通过使用NAS存储本地用户实现Windows客户端的用户管理和文件系统共享权限控制。而对于NFS协议,在客户端IP授权之外,则采用客户端本地的传统SYSTEM级ACL策略实现文件的权限控制。

基于上述权限控制方案,结合我行实际的业务场景,制定出了详细的NAS使用规范。主要分为上文提到的单业务系统使用场景和不同业务系统间的文件交互场景。对于单业务系统使用场景,需要应用系统集群的各节点服务器使用同样的应用用户访问NFS共享,考虑到Linux操作系统的ACL授权机制,需要各节点的这个应用用户有相同的UID和GID设置。而对于不同业务系统间的文件交互场景,NAS存储端按照实际业务需求控制不同业务系统客户端服务器对同一共享文件系统的读写和只读权限,共享文件系统中的文件和目录权限通过设置子目录实现细粒度的权限控制。各业务系统在共享文件系统挂载点目录下建立独立的子目录,各子目录由对应的业务系统的实际需求进行权限设置。原则上,禁止跨业务系统子目录进行写入、删除和更改操作,跨业务系统子目录只允许只读操作。

除了NAS的权限和用户管理,对于客户端的挂载也要按照最佳实践进行配置。

首先,对于客户端NFS文件系统本地挂载点的选择,要避免使用“嵌套”目录,也就是说客户端挂载点是根文件系统(根目录)下的独立空目录,不能是其他非根文件系统下的子目录。这样在技术上可以规避上层文件系统异常对NFS共享文件系统的影响。另外,NFS的挂载选项里有很多可以调优的参数,这里面可以根据实际情况,结合NAS厂商白皮书提供的建议进行设置。最后,为了提高文件访问性能,高端NAS存储接入了多个网络区域,以便提供给不同网络区域中的业务系统使用,从而规避边界防火墙对跨网络区域文件访问的性能影响。因此,各网络区域中的客户端要通过相应区域的存储前端业务网络接入。

五、 项目运营情况

华为高端NAS存储双活系统自投产以来运行平稳高效。其中,业务系统间文件交互场景随着我行新核心银行系统工程建设项目一并上线。截止目前,该平台已经承载了和新核心银行系统交互的50多个业务系统场景。

对于GPFS迁移NAS的非结构化数据存储架构优化事项,已经完成了两个批次系统的迁移,目前正在推进后续批次的迁移实施。

在高端NAS存储双活建设项目立项之初,便已经考虑了系统的可扩展性和架构弹性。为了满足我行新核心以及其他重要业务系统的文件异地灾备建设需求,目前正在推进异地NAS存储建设项目。对于文件异地容灾将采用基于NAS存储的复制技术,通过直接在现有高端NAS双活系统上增加第三台NAS存储,实现在线构建两地三中心架构。 整个项目实施过程可以做到对现有业务系统无感知和性能无损。 考虑到现有NAS双活系统采用亦庄生产中心主,空港灾备中心备的使用策略。因此,在构建异地灾备中心的存储时,可以采用级联复制的策略,即通过空港端的存储实现异地数据复制。这样可以节省生产中心到异地灾备的广域网带宽,给其他业务提供更多的带宽资源,同时,可以充分利用空港同城灾备中心到异地的闲置网络带宽。

六、 项目成效和经验总结

通过本项目的实施,无论是对我行存储系统架构体系建设,还是业务系统的设计都取得了显著的优化和成效。

首先,实现了我行NAS文件存储资源池的分级建设,填补了高端NAS存储资源池的空白。第二,降低了块存储使用成本,提高存储的使用灵活度,实现不同类型业务数据的合理存储。第三,借助高端NAS存储设备构建同城双活架构,实现重要业务系统对于文件存储的高可用需求。同时,也为接下来的NAS存储两地三中心建设做了很好的铺垫。第四,开创性地利用NAS存储构建业务系统间文件交互平台,显著提升了业务处理效率。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

7

添加新评论3 条评论

ltzxlwj700mltzxlwj700m系统工程师, 中*银行
6天前
文章描述了基于华为高端NAS存储双活实践,并探讨了两地三中心架构的可行性,内容详实。长达5个月的POC深度测试,对于行内运维人员掌握NAS存储技术储备有很大帮助,且在高可用方面的测试用例丰富,对于有非结构化数据存储系统架构优化需求和计划采购nas存储的客户很有参考价值。
zy7227zy7227网络工程师, bank
2021-11-29 14:55
NAS在业务场景中使用越来越多,但使用高端存储的场景并不多见,性价比并不高;但是对于安全稳定运行来说,只要安全稳定,任何投入都值得;就文章而言华为的存储提供了NAS和SAN的功能,在验证双活功能方面有很好参考价值。
笑笑笑笑系统工程师, 财险
2021-11-29 11:29
文章提到使用场景以及测试故障点的地方非常值得我们学习。 如文中提到"测试用例涵盖6大使用场景以及20个高可用场景。在高可用测试场景中,主要包括了仲裁到主存储链路故障、仲裁到备存储链路故障、两中心间复制ISL链路故障、仲裁故障、主存储故障以及备存储故障等单点故障场景以及ISL链路故障且仲裁到主存储链路故障、主存储故障且仲裁服务器故障等双点故障场景。" 另测试主机端采用vdbench IO仿真软件持续下发IO模拟业务操作,其实这个地方其实需要考虑主机端所连网络交换机的 速率,如果交换机本身速率上不去,那么就不会压测出实际想要的效果。 该行采购了2台华为OceanStor18 000 系列全闪高端存储,这存储满足NAS分级资源建设完全可以, 但说实现了降本增效则未必。单个数据中心采用了2台40Gb的复制交换机以及10Gb的业务接入交换机,这个在成本上其实不比光纤网络低。2台32GB的FC交换机价格大致和2台40Gb的相当。 如果能把NAS的高中低端的分级管理是如何做的,分享出来,那就更完美了。 文章从整体上给我们分享一个高端NAS存储双活的解决方案,在这里还是要表示非常感谢。
Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

核心存储选型优先顺序调查

发表您的选型观点,参与即得50金币。