zhangpeng4007
作者zhangpeng4007·2023-06-01 11:19
系统运维工程师·某城市商业银行

商业银行异构存储迁移实践-迁移实施过程和效果篇

字数 5950阅读 4034评论 1赞 3

【摘要】

本文以核心存储扩容项目为背景,通过对部分业务数据向异构存储迁移的方式,实现原有核心存储空间回收与扩容的目标。基于业务特点、基础环境配置、业务连续性和技术成熟度几方面综合考量,最终选择从操作系统层面进行异构存储迁移。尽管该迁移方案与实现技术手段未必是最优最新的,但本次数据迁移的成功,为异构存储迁移实践积累了成功的可行性经验,同时笔者也从需求分析及设备选型,迁移方案设计,迁移实施过程和实践效果分别进行了总结与复盘。

全文共分为三个部分:需求分析及设备选型篇、迁移方案设计篇、迁移实施过程和实践效果篇;需求分析及设备选型篇通过项目背景与目标,重点拆解业务系统需求,有针对性地设计技术要点和实施重点;迁移方案设计篇主要从异构存储特点出发,结合业务制定有针对性并且合理的迁移目标,对于方案设计中关键性技术进行详细的准备与测试,包括确认方案中重要前置条件和模拟迁移估算时间等,确保迁移方案有效可落地;迁移实施过程和实践效果篇主要以步骤检查表的形式,供异构存储迁移进行参考避免疏漏。最后分享迁移过程和之后一周的性能数据与业务反馈,并对异构存储整体迁移效果进行经验总结:多参考与论证落地的成功案例、多注意产品差异与安全性的细节、最终选择最适合自己的迁移方式。

本文为第三部分:迁移实施过程和实践效果篇。


一、 迁移过程

由于本项目主机的特殊性,并经过上一篇中分享的技术方案验证,因此,异构存储数据迁移过程采用基于LVM进行的异构存储迁移,具体的关键步骤整理成下面检查列表,作为核对迁移的过程的CheckList。

步骤描述基本命令备注
检查新划分识别的目标存储磁盘#hostname#oslevel -s#lspath#lsvg#lsvg -o#lspv#lsvg -p dbvg#lsvg -p appvg#powermt display dev=all#upadm show version#upadm show lun
检查集群状态#/usr/es/sbin/cluster/utilities/cltopinfo#/usr/es/sbin/cluster/utilities/clRGinfo#/usr/es/sbin/cluster/utilities/clmgr query repository#lscluster -d#/usr/es/sbin/cluster/utilities/clmgr view report repository
检查/设置数据磁盘锁#lsattr -El hdiskx#chdev -l hdiskx -a pv=yes
设置心跳磁盘锁信息#lsattr -El hdiskx#chdev -l hdiskx -a pv=yes
设置edevlun磁盘访问策略#lsattr -El hdiskx,, 否则,参照下面命令修改。#chdev -l hdiskX -a algorithm=min_queuedepth华为多路径默认是最小队列深度
将磁盘配置成物理卷(赋PVID)#chdev -l hdiskx -a pv=yes#cfgmgr如果磁盘上没有PVID,则执行命令生产PVID
检查物理卷容量,确保做mirror的物理卷容量一致#bootinfo -s hdiskpower0 10241#bootinfo -s hdiskpower1 153600 数据库#bootinfo -s hdiskpower2 204800 应用#bootinfo -s hdisk10 204800 应用#bootinfo -s hdisk11 153600 数据库#bootinfo -s hdisk12 5120
将目标物理卷加入卷组#extendvg -f datavg hdiskxx hdiskxx ... _CSPOC_CALLED_FROM_SMIT=true /usr/es/sbin/cluster/sbin/cl_extendvg -cspoc -n'qlcdb,qlcapp' qlcdbvg 00c2a8c69a49f3ce #目标盘PVID_CSPOC_CALLED_FROM_SMIT=true /usr/es/sbin/cluster/sbin/cl_extendvg -cspoc -n'qlcdb,qlcapp' qlcappvg 00c2a8c69a49d9f1 #目标盘PVID#lspv#lsvg -p qlcdbvg#lsvg -p qlcappvgPowerHA集群操作在其中任一个节点上操作即可:smitty hacmp > System Management (C-SPOC) -> Storage-> Volume Groups->Set Characteristics of a Volume Group-> Add a Volume to a Volume Group , 选择卷组、磁盘
执行mirror操作,后台执行,不同步,使用原逻辑卷上PP和LP的映射关系#nohup mirrorvg -s -m -c 2 qlcdbvg hdisk205 hdisk206 hdisk207 hdisk208 hdisk209 hdisk210 hdisk211 hdisk212 hdisk213 hdisk214 hdisk215 hdisk216 hdisk217 hdisk218 hdisk219 hdisk220 hdisk221 hdisk222 hdisk223 hdisk224 &#nohup mirrorvg -s -m -c 2 qlcappvg hdisk226 hdisk227 hdisk228 &
执行卷组同步,指定并行同步逻辑分区LP的数量为8DB节点执行:#nohup syncvg -P 8 -v qlcdbvg &APP节点执行:#nohup syncvg -P 8 -v qlcappvg &经测试,当前资源增加并发不会再提升同步速度了
检查mirror两个物理卷的lv,确保数据一致,确保文件系统正常访问DB: #lsvg -l qlcdbvg#lsvg -p qlcdbvg#lslv -m loglv01#lslv -m fslv01#ls -l /qlcdbfs/log | wc#df -gAPP:#lsvg -l qlcappvg#lsvg -p qlcappvg#lslv -m loglv00#lslv -m fslv02#ls -l /qlcappfs/log | wc#df -g确保每个PP已经在源端和目标端存储完全同步
稳定运行后,将源端盘从卷组镜像中删除DB:#nohup unmirrorvg qlcdbvg hdiskpower0 ... &APP:#nohup unmirrorvg qlcappvg hdiskpower20... &
将源端盘从卷组中移除#nohup reducevg dbvg hdiskpowerx &#rmdev -Rdl hdiskpower/hdiskx
在线更换心跳盘
备份主机HA配置,先备份集群配置信息smitty sysmirror(hacmp) > Cluster Nodes and Networks > Manage the Cluster > Snapshot Configuration >Create a Snapshot of the Cluster Configuration and press Enter.指定备份的名称,以及备份的描述
切换心跳盘#lscluster -d/usr/es/sbin/cluster/utilities/clmgr query repository/usr/es/sbin/cluster/utilities/clmgr view report repository/usr/es/sbin/cluster/utilities/clmgr replace repository hdisk12/usr/es/sbin/cluster/utilities/clmgr remove repository hdiskpower0手动同步HA配置信息(不同步备节点信息不更新)
替换主心跳磁盘到备心跳盘(ha7.2的心跳配置 )#clmgr replace repository hdisk228菜单Smit hacmp > Problem Determination Tools > Replace the Primary Repository Disk, 手动输入:hdisk228检查lscluster -d和clmgr view report repository命令来验证hdiskpower0 为源存储的主心跳盘,hdisk228为目标存储的备心跳盘
集群里面删除源存储心跳盘命令行clmgr remove repository hdiskpower0菜单Smit hacmp→群集节点和网络→管理存储库磁盘→删除存储库磁盘->选择hdiskpower0一个节点上做即可
系统里面删除EMC的心跳盘#rmdev -Rdl hdiskpower0主备机
手动同步HA配置信息,检查状态检查集群状态/usr/es/sbin/cluster/utilities/cltopinfo/usr/es/sbin/cluster/utilities/clRGinfo检查心跳盘状态/usr/es/sbin/cluster/utilities/clmgr query repository/usr/es/sbin/cluster/utilities/clmgr view report repositorylscluster -d
回退计划按上述操作,重新操作即可

在发起数据同步过程中,实时查看同步速度,通过控制并发数控制同步速度,通过下面性能情况可观察到,迁移过程对系统无压力,如下图所示,启动业务后观测运行性能观察不需要进行回退。
 图1 异构存储迁移后性能

图1 异构存储迁移后性能

二、 迁移后的效果

对比观测迁移前一周和迁移后一周内的性能数据,询问业务使用以及批量调度的时间,验证异构存储迁移的功能、性能和稳定性情况。
 图2 异构存储迁移前一周性能状况

图2 异构存储迁移前一周性能状况

原存储响应时间平均 1ms 左右,最高 4.5ms ;日 0:00 至 16:00 平均读 170MB/ ,平均 写 90MB/s ,由于源存储容量和性能已达配置上限, 读响应时间写响应时间平均在7ms左右,峰值 16ms ,读响应时间平均 1ms ,峰值 1.9ms 。
 图3 异构存储迁移后一周性能状况

图3 异构存储迁移后一周性能状况

目标存储响应时间平均 0.3-0.6ms 左右,峰值 1.3ms ;写响应时间平均 0.9ms ,峰值 1.89ms ,读平均响应时间平均 0.2ms ,峰值 0.4ms 。

此外,数据迁移完成后,源端和目标端存储,都可以对承载业务进行容量扩展,源端存储需要将主、从存储以及克隆空间回收,目标端存储扩容需要通过命令行的方式,先进行同步后加入数据保护组中,这一点应该会在未来的图形界面功能中得以实现,相关的案例和操作,我以附件的形式放在文章最后。

以上变更完成后,需要更新自动化切换工具,资源配置登记和应急手册等相关文档,并通知相关人员知晓。

三、 迁移复盘与总结

首先,在异构存储迁移过程中,首先通过提前充分的测试,掌握异构存储兼容性、业务连续性要求和维护窗口后,选择最合适的数据迁移方式是十分重要的。异构存储之间并没有过多的并存关系,当然已经具备存储虚拟化网关设备可以很轻松的解决这种异构存储迁移问题,但对于新增存储虚拟化网关同时进行异构存储迁移,业务连续性要求都是一样的,未来会更方便进行迁移,增加了存储虚拟化层维护成本就可以根据自身的情况来选择。部分目标存储本身也具备存储虚拟化能力,不过大多数只适用于数据迁移过程,并不建议日常使用,也涉及到权责问题,不好区分。

其次,请重点关注异构存储迁移前后的操作以及安全性要求的提升。前面提到的使用差异以及扩容中的操作习惯,也都需要在测试阶段解决,不要把问题留到迁移完成之后进行,操作风险性很大,部分操作厂商也只能在测试环境进行评估后给予答复,时效性也不能保证。另外安全性的提升是必要的,但当使用环境的部分基线并没有跟上安全性要求时,需要升级自动化切换平台和应急操作平台的客户端进行升级,部分代码也需要重新进行编译与调整,因此安全性提升带来的变化,需要提前进行设计与考虑,纵使有临时降低安全要求的临时解决方案,也不要忽略这方面的问题。

最后,异构存储迁移的方案还是需要结合同业和厂商推荐的优秀案例,根据自身的人员、业务、架构和技术的综合因素,根据RPO/RTO的要求订制自己的异构存储迁移方案,分享这篇文章也是为了将技术操作的具体过程分享出去作为参考,给自己的迁移方案差缺补漏,保证迁移一次性成功不回退。

四、 对整体核心系统改造的作用意义

信贷业务系统国产化高端全闪存储的迁移与上线,不仅标志着项目的顺利完成,也为我行数字化转型提供了更多的选择,为我们的数字化转型之路,坚定了信心、夯实了基础并赢得了空间。在原应用架构完全不变的情况下,交易性能完全不受影响,并预留了更高的性能上涨空间,为业务发展带来了新的机会。信贷系统使用的华为OceanStor Dorado18000系列高端全闪存储投产后,高效稳定运行,性能符合预期,坚定了我们对核心设备国产化的信心,在数字化转型之中拥有更多更好的技术选择。在项目实施中,实施团队所展现出勤恳的工作态度和突出的专业能力进一步增强了我们对高端国内厂商交付能力的信心。

行内人员在项目实施过程中,提升了对全闪存产品技术的理论认识及实操能力,软实力也得到了提示,这也是数字化转型的必要条件,通过与国内领先厂商的合作,增进了相互了解,健全了我行的数字化生态,为我行持续的数字化转型夯实了基础。

在信贷系统迁移之后,更多的核心存储承载系统,将会参考本项目进行存储迁移,解决原有系统高昂的维护成本与复杂的扩容方案等难题,国产化高端存储三中心架构,支持未来3-5年业务发展,为后续的数字化转型中,选择分布式架构、云平台等技术路线预留充足的转型发展时间和性能提升空间,加快了技术迭代速度,向更为绿色、节能、高效、稳定的数据中心演进。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

3

添加新评论1 条评论

yulu4314yulu4314技术支持长春
2023-06-02 08:15
内容很全面,值得参考借鉴!
Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

作者其他文章

相关文章

相关问题

相关资料

X社区推广