本文将围绕GPFS在行内应用的实际情况的和华为NAS存储技术的先进性,展开探讨中小规模的城商银行在文件共享场景下从GPFS迁移至企业级NAS实践路径和思考。
我行多套业务系统(如柜面业务、支付业务、前置服务等)应用服务器集群存在应用节点之间共享目录的文件访问需求。在系统的前期建设中因当时IBM的GPFS技术相对成熟而且同业广泛的实践均反馈良好,同时GPFS在AIX系统上有较为良好的适配性,因此我行对支付业务采用了基于AIX高可用架构搭建GPFS并行文件系统、对柜面业务采用基于虚拟化技术搭建GPFS并行文件系统来实现应用集群共享文件需求。
GPFS在行内部署的多年来有效支撑了应用运行与相关业务发展,但是由于我行在实施LINUX替代工作、虚拟化环境部署GPFS存在特殊性,以及GPFS维护管理相对的复杂性。因此在行内由数据中心搬迁工作投产了华为OceanStor Dorado 18000 系列SAN /NAS一体化双活的高端存储,同时启动了NAS专业存储设备替换GPFS的工作。
本文将围绕GPFS在行内应用的实际情况的和华为NAS存储技术的先进性展开讨论中小规模的城商银行在文件共享场景下从GPFS迁移企业级NAS实践路径和思考。
我行前期已大规模应用服务器虚拟化技术为业务系统提供计算资源,柜面业务正是部署于虚拟化平台之上,同时又部署了GPFS集群满足文件共享需求。在上图所示的LINUX系统以及虚拟化环境下部署GPFS集群需要达成以下条件:
1.首先要在虚拟机之间共享虚拟磁盘。集中式存储通过SAN网络向虚拟化集群映射NSD磁盘;
2.虚拟机要添加额外的 SCSI 控制器管理共享的虚拟磁盘,在第一个虚拟机上首次添加并创建共享虚拟磁盘,在其他应用虚拟机里使用“添加已有磁盘”功能增加同ID的共享磁盘挂载;
3.因柜面应用节点是基于同城双活方式部署,在生产中心与同城中心各部署10个节点,为保障GPFS并发文件系统的数据一致性以及高可用,要设置MASTER节点,选取主中心的3个应用节点作为MASTER,以保证在2个及以下Master节点故障的情况下,存活的Master节点能继续控制GPFS集群提供服务。
使用虚拟化环境部署GPFS集群在一定程度上简化了系统的组网,并且更高效的利用了物理设备资源,但是也正是因为虚拟化的技术特性同时带来了运维工作存在一定复杂性与技术痛点,结合GPFS的技术特性,总结以下6点:
综上6点痛点与原因,我行计划在数据中心新建的契机之上,使用NAS专用存储设备替换现有GPFS文件系统。
目前市场上使用的NAS产品主要分为3类:企业级集中式NAS存储设备,企业级分布式NAS存储设备,开源存储软件NAS。不同的NAS技术路线在产品特性、安全性、冗余性、高可用性、容灾技术、部署与运维成本上具有各自的特点。考虑到我行业务需要共享文件系统的业务特点,即数据规模较小(指数据共享规模一般在TB级数据量),对性能要求根据业务场景不同而需求不同(如支付清算系统对共享文件的性能要求较高,而前文所述的柜面系统业务场景下对性能要求不高)、对数据高安全性、冗余性、高可用性的需求高,我行最终确定选择企业级集中式NAS存储设备作为行内文件共享的解决方案。
在企业级集中式NAS存储设备的技术选型上选择了华为企业级NAS存储设备,从NAS存储的软件特性考虑,例如基本的挂载、复制等传统功能的技术差异度并不明显,主要考察的NAS双活等高级特性,其中NAS双活技术的特性对比表格如下:
特性 | HUAWEI | NetApp | HDS |
名称 | HyperMetro | MetroCluster | NAS Cluster+SAN GDA(Global-Active Device |
架构 | 融合,站点A和站点B两个独立的集群 | 融合,站点A和B是同一套集群 | NAS网关+SAN,扩展的NAS集群和两个独立的SAN存储 |
双活最大节点数量:32 | 双活最大节点数量:8 | 双活最大节点数量:2 | |
数据双写到本地和从端内存 | 数据双写到本地和从端内存,同时要双写到 本地和从端硬盘,2倍带宽占用 | 数据同步依赖于SAN阵列的双活 | |
故障恢复 | 故障自动切换 主端故障恢复后自动恢复镜像关系; 目前已不需要手工Switch back | 故障自动切换 主端故障恢复后需要手工修复数据才能恢复镜像关系; 需手工Switch back | 故障自动切换 主端故障恢复后需要手动恢复镜像关系; 需手工Switch back |
仲裁 | 仲裁服务器/优先站点 支持仲裁服务器冗余 | 仲裁服务器 | 仲裁服务器 |
网络 | FCIPROCE 将复制链接,配置链路和心跳链路集 成到单个物理链路中。 | 集群互联和配置同步使用IP网络; NVRAM数据镜像使用FC或IP网络 硬盘框数据镜像使用SAS和FC互转的交换机 | SAN用FC,NAS用IP |
我行在两地三中心部署了三台华为OceanStor Dorado系列NAS存储设备,形成NAS存储的两地三中心格局。其中生产主中心部署华为OceanStor Dorado 系列的基于闪存阵列的企业级NAS节点,在同城两中心各部署一台OceanStor Dorado系列企业级NAS节点。生产主中心的闪存存储与灾备中心部署双活架构用于承载重要生产业务的共享文件系统资源,因其NVME的闪存特性能够保障生产业务的IO性能需求。同时为保障历史文件归档与备份数据安全,在同城中心部署NAS作为生产业务数据的一体化备份节点以及历史数据归档的存储使用。
华为企业级NAS存储在前期支持NAS二层双活架构,即两台阵列要在同一个二层网络,其主要的弊端是依赖于跨中心的二层网络, 从网络层面看有一定网络广播风暴和跨中心访问链路不稳定导致的生成树重算问题,从存储容灾层面看发生数据中心级灾难后二层网关需要切换到灾备中心后,存储的网络就绪才能继续对外提供服务。
目前华为企业级存储的微码版本更新至6.1.3PH8版本后已经新增支持了跨数据中心NAS三层网络双活的容灾功能,升级后跨数据中心三层网络的两台存储无法提供相同网段的物理IP,需要配置虚拟VIP给主机,让主机通过VIP访问NAS 业务。在存储内部实现VIP到实际三层物理IP(BGP LIF)跨网段路由,并将路由关系通过BGP协议上报给汇聚路由器。交换机需要配置BGP peer以接受存储上报的BGP路由信息。
具体双活切换的原理是:当生产站点可用时,实际承载VIP1的BGP LIF A0是在线联机的,灾备中心对应的BGP LIF B0是STANDBY状态。主机配置一条到VIP1的静态路由端口指向其直联的交换机,此时生产交换机接收存储上报的路由信息,计算出到VIP1路由,主机最终通过VIP1访问到生产存储NAS;当生产站点发生灾难不可用或发生切换时,同城存储的BGP LIF B0由STANDBY状态转变成在线联机状态,VIP1切换漂移到同城灾备的存储设备,同样同城存储通过BGP协议上报路由信息,同城交换机需要重新计算出到VIP1路由,此时主机不需要任何更改,不需要重新挂载文件系统或者重启操作系统,经历秒级的中断(存储切换的时间)即可继续访问共享文件系统服务,中断的时间在NFS协议可接受的范围内(没有超过重传等待时间)。从业务角度完全感受不到双活切换造成的短暂中断,真正做到了跨数据中心三层网络NAS双活。
将GPFS集群文件系统的存量数据迁移至华为企业NAS存储设备的步骤很清晰明了,具体步骤如下:
1.对现有GPFS集群的文件系统数据进行备份,防止意外情况发生;
2.从华为企业NAS建立该业务系统对应的租户,分配合适的存储空间,并新建NAS文件系统映射给业务系统虚拟机;
3.在业务系统上将NAS目录挂载至临时目录,例如/data_migration_temp。
4.根据业务系统的运行情况,可以考虑先将部分存量静态文件(即不会被修改和删除的文件目录与文件)通过操作系统的CP命令或者RSYNC命令复制到临时目录下,也可以使用华为提供的数据迁移工具并发迁移存量数据。
5.在变更割接窗口,停止应用服务,不再接受新的请求,确保GPFS集群文件系统内的相关数据。通过CP命令全量复制(文件个数少或容量小的情况可选择)或者RSYNC的增量复制命令,将差异数据复制到临时目录。
6.运维人员和开发人员手动做一次检查工作,确认文件系统大小、文件个数、文件权限无误后,通过GPFS集群命令执行集群内所有节点的文件挂载点卸载。在所有应用系统节点上将华为企业NAS的挂载点切换到原GPFS的生产目录。
7.重新启动应用,检查文件系统完整可用,应用服务正常,相关业务或数据查询正常。
8.检查华为企业NAS上配置的文件系统一体化备份策略执行执行,文件系统受到保护。
9.业务稳定运行一个月后,确认华为企业NAS的运行可靠稳定,可以开始对原GPFS集群进行资源回收,包括停止GPFS服务、卸载相关软件包、回收磁盘资源。
本文介绍了我行在文件共享需求场景下中小城商银行由GPFS集群文件系统迁移至华为企业级NAS的实践经验。GPFS作为金融企业广泛采用的文件共享解决方案当前依然具有其独特优势点,其并行访问的文件系统可以满足高并发的写请求等。我行在上线华为企业级NAS存储并完成GPFS替代,不仅充分满足了业务中的文件共享需求与IO性能需求,同时降低了运维复杂度,提高了系统稳定性。同时华为企业级NAS双活、一体化备份、文件快照等技术领先性保障了银行业务的连续性,实现NAS数据完备的保护。
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞6
添加新评论4 条评论
2023-05-11 10:50
2023-05-11 09:41
2023-05-08 21:58
2023-04-28 13:21