lzg21st
作者lzg21st2022-08-26 09:33
存储工程师, brcb

银行文件类数据存储系统架构优化实践经验分享 ——GPFS迁移实践篇

字数 3978阅读 3939评论 1赞 7

导语:

在计划进行GPFS向NAS转型前,要对目标NAS存储做好规划和设计。为了保证NAS存储可以很好地支撑业务需求,同时确保NAS存储系统自身的架构健壮性和性能,可以从容量、性能、架构以及规范等层面对NAS存储进行详细设计。

而对于GPFS向NAS的迁移,要以项目管理的方式进行工作推进。首先是人员的准备,要明确各个条线的工作职责,从而便于各条线做好配合,进而可以保证项目的交付质量。对于具体的迁移工作,要按迁移前、迁移中和迁移后做好整个迁移工作的闭环管理。此外,要做好经验总结,通过持续的PDCA,可以使后续的迁移工作更顺畅和高效。

一、目标NAS存储的规划和设计

在进行GPFS向NAS技术转型之前,要对目标的NAS存储做好规划。可以从容量设计、性能设计、架构设计、规范设计等方面对目标NAS存储提前进行规划。

具体来讲,对于容量设计方面,要以GPFS台账为依据,梳理GPFS文件总容量,此外,需要考虑存储容量年增长率因素,评估出满足业务至少3-5年的存储容量需求。对于性能设计,可以利用存储性能监控工具,形成GPFS业务系统的性能基线,并充分考虑波峰(带宽和OPS),以此作为存储配置的依据。在做性能统计时,有几个注意事项。一是GPFS业务系统在存储上往往较为分散,不同的业务系统服务器会分布在不同的存储设备上,这也是汇总性能数据的一个难点和要注意的地方。二是要特别关注交易量大的系统,抓住带来存储性能消耗的几个关键系统。三是要建立典型业务高峰时点的性能基线,如季度结息、年终决算、双十一等。四是在做性能分析时,要注意辨别共用存储资源的情况。例如GPFS和数据库业务共用存储前端口的情况,在做性能数据收集时,要收集GPFS涉及LUN的性能,而不是端口的性能数据。因为端口属于共用资源,除了GPFS流量,还包括数据库业务贡献的流量。对于架构设计,存储系统首先没有单点故障,然后用于承载重要系统的NAS存储构建基于存储复制技术的3DC架构。

此外,为了提升NAS存储系统各张网络的健壮性和性能,建议构建功能独立、物理隔离的网络。对于业务网络,可以通过LACP链路聚合的方式扩充存储侧的网络带宽。最后,对于规范设计方面,要充分利用NAS存储提供的租户特性,实现各业务系统的安全隔离。有关NAS存储的架构设计将在后续的文章中进行更详细地说明。

下图是华为高端NAS双活系统网络拓扑图,从图中可以看出,正是采用了四网分离的网络架构,即业务网络、复制网络、仲裁网络、管理网络分离,才得以保障各张网络的高可用和高性能。

一、迁移原则

在GPFS向NAS迁移工作实施前,为了保证迁移质量,同时提升迁移效率,首先制定了迁移的四大原则。

第一是“先做减法”原则,一方面,对于已下线及待下线的系统,积极推动系统下线流程,然后回收所用存储资源。另一方面,推动各业务系统历史数据清理,降低数据迁移量。

第二是“以静制动”原则,对于有改造计划的系统,待系统改造完成后,再决定是否迁移或回收老系统所用存储资源。

第三是“分批推进”原则,为了平稳、高效地完成迁移任务,合理划分迁移批次。此外,迁移工作要由易到难,从简到繁,不断积累经验。

第四是“精细方案”原则,首先,迁移方案要做实做细,要做好迁移前、迁移中、迁移后整个迁移工作的闭环管理。此外,针对不同业务系统,需要定制最佳的个性化迁移方案。比如对于文件目录很深、文件数量特别大的系统,可以采用分批次的迁移方案。

二、迁移方案

如前所述,为了做好整个数据迁移工作的闭环管理,下面将从迁移前的准备工作、迁移实施过程以及迁移后的收尾工作等环节对迁移方案进行展开陈述。

(一)迁移前的准备工作

人员是项目实施的关键因素,在迁移项目中,各个技术条线要做到分工明确,进而才可实现通力合作。系统条线作为提供和保障IT基础设施的技术条线,将作为整个迁移项目的项目经理角色,负责牵头整个数据迁移项目。应用条线配合确认和推进已下线和待下线系统的下线流程,同时,在数据迁移完成后,配合进行必要的业务验证工作。网络条线在迁移工作中负责开通相关的网络访问关系,提供网络方面的技术支持。生产管理条线则负责组织落实相关变更的方案评审以及对外的监管报备工作。

决定迁移项目质量的另一个关键因素是要有一份清晰且精准的GPFS台账。关于台账的准备,可以采用管理维度和技术维度相辅相成的策略。对于管理维度,日常运维工作中形成的完整且及时更新的GPFS台账作为基线。而对于技术维度,一方面可以通过运维自动化平台,编制GPFS文件系统信息导出脚本,形成GPFS全量信息报表。另一方面,可以借助CMDB平台导出GPFS相关报表。通过上述管理和技术的融合,最终形成一份全量的GPFS台账,从而可以指导后续的迁移工作。

(二)迁移实施

Ø 目标NAS存储分配到位
对于一般重要业务系统分配低端NAS存储,NAS存储采用本地部署方案,而对于重要系统则分配高端NAS存储,采用NAS同城双活架构。

Ø 数据迁移操作流程
1.将分配的目标NAS存储挂载到临时目录上,如/qianyi
2.将GPFS挂载点目录下的内容全部拷贝到上述的目标路径下
3.待拷贝完成后,卸载掉GPFS以及目标NAS文件系统
4.将目标NAS文件系统挂载到原GPFS挂载点上

对于停机窗口充足的系统,建议在第二步开始前,停止使用GPFS的应用程序。对于停机窗口有限的系统,第三步的拷贝可以使用rsync等支持增量拷贝以及断点续传的命令。对于目录结构深、海量小文件的系统,可以分批次进行数据迁移,如先迁移近期使用的文件及目录,后续再分批次迁移历史文件。

(三)迁移收尾工作

数据迁移完成后,需要组织应用人员进行业务验证,验证新的目标存储可以正常承载业务运行。

为了应对可能发生的遗漏文件的快速查找需求,需要将原GPFS目录挂载到临时目录下,具体操作步骤如下:

待新的NAS投产且平稳运行后,经过一段时间的观察期,可以组织对先前GPFS资源的回收。

四、遇到的问题和解决方法

在做数据迁移时,要充分考虑每个业务系统的文件生成和访问特性。因为不同的系统对不同日期目录的操作方式会有差异,这也是为什么要针对各个系统做定制化的迁移方案。

比如,有的系统在数据迁移窗口期间不会访问历史日期目录,只会在当前日期目录下生成文件。对于这样的业务系统,我们可以利用短暂的窗口,先将GPFS和NAS的挂载点进行切换。这样一来,新的文件就会直接落地到NAS上,然后再迁移其他的目录和文件。

在windows操作系统中做数据拷贝时,我们往往会遇到内存资源不足的情况,这个一般是与一次性拷贝的文件太多有关。对于这个问题,可以在每天的业务空闲时段,按目录分批次进行拷贝。

对于windows操作系统,在挂载NAS存储(映射网络驱动器)时,你会发现重启服务器后,之前挂载的网络驱动器不见了。这是因为在映射网络驱动器时,没有注意有些附加选项。如下图,在映射网络驱动器时,注意要把“登录时重新连接”选项勾选上。然后,注意选择使用其他凭据连接,这样会弹出访问NAS存储的用户名和密码,同时要注意选择让windows记住用户名和密码。

另外,对于Linux或AIX操作系统,同样也要注意把NFS的Mount挂载命令写入开机自启文件里,如对于Suse Linux操作系统,是/etc/init.d/after.local文件;对于红帽Linux,是/etc/rc.d/rc.local;AIX一般可以写入/etc/filesystems文件里。这里面如果是AIX HA场景,因为一般NFS文件系统是随服务IP一起的,所以可以把NFS的挂载和卸载命令写入ha的启停脚本里。

在做数据迁移时,有时会遇到拷到目标目录中的文件时间戳、文件的属主属组或是权限会发生改变,这是因为在执行拷贝时没有用对选项。比如对于cp命令,注意使用-a选项,这个选项包含了-p all的功能,也就是拷贝时会保留文件或目录的上述元数据信息。

在数据迁移过程中,还有个典型问题,就是由于没有更改GPFS的挂载点定义,而只是临时将GPFG文件系统卸载掉。这样一来,在系统重启时,会造成GPFS和NAS的挂载点冲突。如果GPFS成功挂载了,那么新的业务文件就会写入到GPFS文件系统中,进而给整个迁移工作带来麻烦。这也是前文提到的一定要做好迁移工作的闭环管理,注意按上文方法彻底调整GPFS的挂载点。

五、迁移总结

目前,GPFS迁移NAS的工作还在平稳、高效地推进中。通过项目实施,也收获了不少经验。

从技术维度来看,一是对于目标NAS存储设备的架构规划要以目前业务系统的实际需求出发,特别注意性能基线的建立。二是要结合应用场景,灵活使用存储的特性,比如租户隔离特性。三是在迁移前针对各个系统定制个性化的迁移方案,在迁移中注意文件属性保留的拷贝选项,在迁移后要调整GPFS的配置,尤其是更改其挂载点。

从管理维度来看,一是要将每一个存储迁移工作以项目管理的方式进行推进,做好各技术和管理条线的职责分工,各专业条线通力合作,才能实现高质量的项目交付。二是对于迁移工作,要“巧干”,首先制定工作原则。例如文中提到的“先做减法”、“以静制动”,这实际上也是对业务系统以及历史数据生命周期管理的实践和完善,借存储迁移项目的契机,可以促进对业务系统下线的推动,同时完成历史数据的清理。三是对迁移工作要做好闭环管理,特别要重视迁移后的收尾以及总结。

相关阅读:
银行文件类数据存储系统架构优化实践经验分享——需求分析和技术路线篇:
https://www.talkwithtrend.com/Article/260799

银行文件类数据存储系统架构优化实践经验分享——NAS存储使用经验和效果篇:
https://www.talkwithtrend.com/Article/263397

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

7

添加新评论1 条评论

张晓斌先生张晓斌先生信息技术支持, 某大型国企保险公司
2022-12-01 22:32
数据是支撑金融行业业务的重要基础,历史数据迁移的完整性和正确性是系统升级和数据迁移的关键要素。 文章对数据迁移的各个阶段都有一个非常深入的系统的详述,数据迁移的方案设计、数据迁移使用的工具,进行数据迁移、数据迁移结果的验证等,都有作出验证。要顺利完成银行级数据迁移工作,在正确运用数据迁移工具,对迁移后数据的完整性以及正确性作出验证方面的工作都需要非常仔细。最后总结得出数据迁移的几个难点。无论从技术上还是管理手段上都值得细品。
Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

作者其他文章

相关文章

相关问题