昼者
作者昼者2022-03-21 09:56
技术经理, 某省农信

银行业生产系统存储 数据迁移方法及实践

字数 6485阅读 3079评论 3赞 4

摘要:本文基于同城双活中心建设中的存储数据迁移实践,结合行业经验,对银行业生产系统存储数据迁移方法进行了研究和总结。分析了银行业常见存储数据迁移场景、数据迁移中数据安全性、业务连续性和技术场景复杂度等相关难点、总结了数据迁移方案的内容、步骤、相应技术、工具,提出了迁移方案的相关建议,并以华为OceanStor Dorado 18500V3为例,介绍了异构和纳管两种数据迁移实践,为同业存储数据迁移提供了有益的参考。

1 前言

随着全闪存技术与高速网络通信、云计算、人工智能等信息技术的不断深化融合,数据的价值更加凸显,数据库和应用系统的存在形式愈发丰富,全闪存技术生态以燎原之势,呈现出上云、开源、自主可控和分布式的趋势。存储之间的相互迁移已成为常态化,从同构到异构存储之间的迁移,从数据到数据及应用系统的迁移,从本地间到上云迁移,迁移的表现方式不一而足。

我行利用同城双活数据中心建设契机,通过更换老旧关键设备、升级基础软件、应用双活改造等措施,对现有核心系统实施升级,优化了技术架构,完善了管理体系。项目实施内容包括大量设备搬迁和更替、基础软件升级等,均涉及多层次的数据迁移工作。通过阅读文献、同业借鉴和专家沟通,制定了不同场景的数据迁移方案并最终投产成功,以期为同业提供有益参考。

2 背景

我行同城双活中心建设中,数据迁移涉及14套核心系统和56套BC类系统,共计迁移数据量280TB,涵盖数据库层、存储同构和异构、同站点和多站点等多种数据迁移场景。根据同城双活建设方案设计,需同时开展服务器替换,操作系统、数据库、中间件、应用软件的版本升级等工作,进一步加大了数据迁移实施的难度。因此,需针对不同场景,科学安排数据迁移策略,尽量减少停机次数和时长,降低对业务系统运营的影响。

3 数据迁移场景

存储设备作为银行信息系统中最为关键的核心设备,不仅存放着全行业务及管理数据,同时也是容灾解决方案的主要底层技术。因此,存储数据迁移是银行业数据迁移中最为常见的场景之一。

以数据迁移的目的来划分,数据迁移场景主要涉及IT架构转型、数据中心迁移、数据整合、应用迁移、存储及服务器替换等。

4 数据迁移的难点

大数据时代,数据作为生产要素,其价值得到了业界的普遍认可。同时由于对客户体验的极致追求,银行业须提供7X24小时不间断的金融服务范围愈加广泛,这些都对数据迁移工作提出了更高的要求,特别是在数据迁移中所存在的数据安全性、业务连续性、迁移成本及工期、技术及场景复杂度等重点和难点问题。

4.1 数据安全性

数据安全性是数据迁移必须解决的首要问题,主要包括数据的一致性和完整性。

4.1.1 数据一致性

数据一致性是指数据在迁移前后必须保证其数据时间戳的一致性。主要存在两个难点,一是如何在最少停机时间内,完成迁移工作并确保数据的一致性;二是如何进行数据一致性验证。

4.1.2 数据完整性

数据完整性是指数据在迁移前后数据量、配置、状态等相关数据属性的正确完整。同样存在两个难点,一是如何准确评估迁移数据的范围;二是如何进行数据完整性验证。

4.2 业务连续性

一般来说,在业务停机、数据处于静止状态,最利于开展数据迁移工作,更便于保障数据的一致性和完整性。但在实践中,由于监管管控、业务服务及客户体验的相关要求,须尽量采用在线数据迁移方案,牺牲部分生产存储及服务器性能,承担数据可能丢失的风险。因此,在选择数据迁移方案时必须做好窗口时间、设备性能和实施风险之间的平衡。

4.3 技术及场景复杂度

存储数据迁移中涉及现网和目标两端的服务器、SAN交换机等硬件设备,以及操作系统和数据库等基础软件等众多产品和技术。其难点主要在于产品的兼容性、技术的复杂度和场景的复杂性等方面

4.3.1 系统兼容性

现网IT产品是银行业信息化建设历史发展的产物,必然存在品牌多、技术多、代差大等情况,因此迁移方案中各产品和技术间的兼容性是首要考虑的问题。

4.3.2 技术复杂度

现网架构中不仅存在上述多产品间兼容问题,同时涉及现网存储、服务器、操作系统和数据库等产品的容灾高可用功能,因此在设计迁移方案时必须考虑两个方面,一是在数据迁移中如何确保现网架构的高可用性;二是在新架构中如何规划高可用级别不低于现网架构的高可用方案。

4.3.3 场景复杂性

从存储数据迁移的角度来看,现网存储架构一般涉及物理机、虚拟化、云等多类基础架构环境,同时所承载的业务系统重要等级也不尽相同,如何将现网架构根据不同场景分批、分类开展数据迁移是工作中的难点。

5 存储数据迁移方案

5.1 数据迁移方案内容

一般来说,存储数据迁移主要涉及硬件安装、数据同步和迁移割接三类工作:

硬件安装工作量占比20%,主要涉及工勘、、硬件安装、连线、组网划Zone。

数据同步工作量占比30%,主要涉及存储软调、数据同步、容灾配置、数据一致性分裂。

迁移割接工作量占比50%,主要涉及OS重新配置、多路径替换、卷管理和集群调整、数据库与应用软件调整。

5.2 数据迁移步骤

由于数据迁移适用场景较多,业界积累了较为全面的数据迁移步骤,我行与存储厂商结合业界实践经验,将存储数据迁移工作进一步完善,总结为4个阶段,17个实施步骤。详见下图。

5.3 数据迁移场景及相应技术工具

在实践中,存储数据迁移的对象、层级和场景较多,具体参见表格。

5.4 存储常用数据迁移工具(以华为存储为例)

5.5 数据迁移方案选择建议

虽然众多存储厂商针对不同场景和层级提供了丰富的迁移工具,但结合实践经验,在迁移方案选择上有以下建议:

一是虚拟化平台优选使用虚拟化层的同步功能 ;

二是对于停机时间要求不严格的场景,优先选择离线接管+在线迁移 ;

三是选择在线接管+在线迁移的要非常详细的评估可能的影响因素,如iSCSI、SANboot、多路径、集群等 ;

四是Unix平台可以考虑异构虚拟化和卷管理方案,x86下不优先采用卷管理方案 ;

五是数据迁移中一般会同时使用多个方案,以“最小风险、最短停机、最低成本”完成数据迁移工作。

5.6 实施注意点

5.6.1 数据安全性评估

制定迁移方案时,需要对数据安全性进行仔细评估。实施方案确保不会破坏源存储中的数据,迁移完成后源存储中需保留一份原始数据副本。同时,数据迁移完成后,所有业务数据下发到目标存储。

有两点建议:一是在数据迁移之前备份业务数据,需要预留足够的备份窗口完成数据备份。二是在数据迁移之前所有现场与远程支撑人员到位,确定具体的实施时间。

5.6.2 操作时间窗口

由于迁移变更内容多,操作复杂,核心业务磁盘多操作时间长导致整个操作时间窗口有可能超过申请时间窗口。可以通过科学制定Runbook、操作指导书、操作命令、非影响业务的情况下提前做、分阶段分批实施等措施,科学规划操作时间窗口。

5.6.3 数据验证

一是数据量验证。一般采用数据量验证很简单,对比新老数据库的数据表数量,索引数量,触发器数量,视图数量等方式。通过比对版本日期、文件时间戳、MD5校验值等方法结合应用系统特点,制定数据一致性校验脚本和操作流程,加入到日常巡检中,完善数据验证常态化机制。通过比对数据库时间戳、数据表记录条数、分户账余额等方法。

二是数据完整性和一致性验证。需要结合应用系统特点,选取特定表、特定字段进行对比。

5.6.4 迁移操作过程中误操作

在数据迁移过程中很多操作是不可逆的,可能会导致数据丢失或数据损坏。

建议将迁移方案细化到指令级,操作过程中每条指令严格检查回显信息、按照操作手册指令执行、多人进行复核和确认等措施,最大程度减少误操作概率。

5.6.5 回退方案

回退方案作为迁移实施方案中的关键环节,必须确保迁移出现风险时,完善的迁移回退应急预案,保障回退期间业务不受影响。下表以华为存储为例,列出了不同迁移场景的主要回退步骤。

6 存储数据迁移实践案例

我行在同城双活中心建设中,对现有存储容灾架构进行了诸多优化,更换升级了核心(A+类)、重要(A类)、管理监管类(BC类)存储(池),其中涉及大量存储数据迁移工作,在各厂商、部门的配合下顺利完成数据迁移工作,为同城双活中心建设打下了坚实的基础。

我行BC类存储迁移工作,历经95天的深入调研及规划设计,28天的缜密实施,圆满完成从原存储IBM V7000及SVC到华为存储OceanStor Dorado 18500 V3的数据迁移。总计迁移数据量146TB,涉及52套业务系统,76台主机,179个LUN。本章将以我行迁移实践中,环境更为复杂的BC类存储为例,介绍存储迁移相关实践。原存储架构如下:

6.1 华为OceanStor Dorado 18500 V3存储通过异构接管替换IBMv7000存储

6.1.1 数据迁移步骤

步骤一:链接华为OceanStor Dorado 18500 V3到 384B交换机,修改交换机Zone,建立华为OceanStor Dorado 18500 V3与IBM V7000存储之间,以及华为OceanStor Dorado 18500 V3到业务主机SAN网络;

步骤二:主机侧完成数据备份,包括操作系统信息、业务配置信息、光交配置信息、源存储配置信息和业务环境组网;上传华为多路径软件到指定位置;如果存在HACMP,则需做HACMP快照;

步骤三(停止业务系统):停止业务系统,数据库(Db2、Oracle)和集群(HACMP、RHCS、Heartbeat),并取消挂载文件系统,去激活VG;对于有心跳盘的HACMP的业务主机需删除心跳盘;

步骤四:取消V7000存储到业务主机的LUN映射;

步骤五:业务主机安装和配置华为多路径UltraPath;

步骤六:在华为OceanStor Dorado 18500 V3存储上创建eDevLun,并映射eDevLun至业务主机;

步骤七(启动业务系统):主机识别LUN,激活VG,挂载文件系统,启动集群和主机业务;对于之前删除心跳盘的HACMP业务系统需添加新的LUN为心跳盘;

步骤八:华为OceanStor Dorado 18500 V3针对所有eDevLun创建LUN迁移任务;

步骤九:LUN迁移全部完成后,一致性分裂并删除迁移任务;

步骤十:确认业务正常;

备注:在停止业务系统前需做好所有停机系统的数据备份。

步骤十一:数据验证

存储完成异构迁移后,验证迁移的数据是否完整,数据验证步骤如下:

步骤一:异构接管后,启动数据库,应用系统维护人员验证数据可用性;

步骤二:数据完成Migration迁移及分裂后,由应用维护人员对相应迁移系统数据的可用性、一致性和完整性进行验证。

6.1.2 回退步骤

回退方案(1小时):

以下重大问题在凌晨4:00(窗口时间结束前1小时)前无法解决则视为数据迁移失败,需执行回退方案:

1、异构数据同步失败;

2、主机添加目标存储映射失败;

3、迁移后业务启动失败。

回退步骤如下:

1、停止业务、关闭数据库;

2、卸载华为多路径软件;

3、恢复源存储与主机的映射关系;

4、启动业务,启动数据库服务;

5、完成回退。

6.1.3 数据迁移实施情况

数据迁移实施涉及人力资源等10套业务系统,10套系统,18台主机,67个LUN,数据量15T。采用华为Migration技术将IBM V7000数据迁移至华为OceanStor Dorado 18500 V3存储。从Migration技术角度来说,理论上可以实现存储与服务器间的链路无缝切换,但实践中需综合考虑链路稳定性、设备系统数量和停机窗口可控等因素,最终选择在实施链路切换相关步骤(见6.1.1步骤三至七)时,停止应用系统及数据库(无业务数据IO),确保迁移数据的安全性和完整性。通过10小时(其中5小时停机)顺利完成全部迁移工作。

6.2 华为OceanStor Dorado18500 V3存储通过SVC VDM替换老旧存储

通过SVC VDISK Mirror的功能,实现华为OceanStor Dorado18500 V3存储替换SVC下的IBM DS5020和华为S5800T存储。

6.2.1 数据迁移步骤

步骤一:链接华为OceanStor Dorado 18500 V3dao 384B交换机,修改交换机Zone,建立华为OceanStor Dorado 18500 V3与IBM SVC之间SAN网络;

步骤二:华为OceanStor Dorado 18500 V3存储修改映射给SVC端口的role属性,创建硬盘域、主机、主机组,创建LUN、LUN组,映射视图,把LUN映射给SVC;

步骤三:SVC上扫描到新划分到Zone里的华为OceanStor Dorado 18500 V3存储,修改备注名;

步骤四:SVC扫描mdisk,识别华为OceanStor Dorado 18500 V3存储映射的LUN;

步骤五:创建mdisk group,添加华为OceanStor Dorado 18500 V3存储LUN创建的mdisk进mdisk组;

步骤六:添加待迁移vdisk卷镜像,指定到新创建的mdisk组;

步骤七:待同步完抽后,修改主copy到华为OceanStor Dorado 18500 V3存储的mdisk组;

步骤八:分离源存储的copy为新的卷,指定别名;

步骤九:确认业务正常;

步骤十:删除分离后源存储的卷;

步骤十一:源存储接触对SVC的映射;

步骤十二:数据验证;

存储完成异构迁移后,验证迁移的数据是否完整,数据验证步骤如下:

步骤一:异构接管后,启动数据库,应用系统维护人员验证数据可用性;

步骤二:数据完成SVC VDM后,由应用维护人员对相应迁移系统数据的可用性、一致性和完整性进行验证。

6.2.2 回退步骤

当创建完vdisk镜像,数据双写,切换读I/O到华为OceanStor Dorado 18500 V3存储,出现故障或性能无法满足生产需要,考虑回退操作。回退步骤如下:

1、切换卷的主copy回到原存储;

2、从vdisk镜像里分裂华为OceanStor Dorado 18500 V3存储的vdisk;

3、删除分离后的华为OceanStor Dorado 18500 V3存储vdisk;

4、开启原卷的读写缓存;

5、解除华为OceanStor Dorado 18500 V3存储对SVC的映射;

6、完成回退。

6.2.3 数据迁移实施情况

数据迁移实施涉及ATM监控等15套系统,15套物理机系统,20台虚拟机集群主机,106个LUN,迁移数据量131T。采用IBM VDM技术迁移至华为OceanStor Dorado 18500 V3存储,通过95小时、全在线方式顺利完成全部迁移工作。

7 结语

随着人工智能、区块链、云计算、大数据、物联网等技术的飞速发展,新技术在场景化的应用趋势愈发明显。技术的快速迭代中,我们不得不广泛面对数据迁移的大量需求。而存储设备作为银行信息系统中最为关键的核心设备,不仅存放着全行业务及管理数据,同时也是容灾解决方案的主要底层技术。因此,存储数据迁移是银行业数据迁移中最为常见的场景之一。

本文基于同城双活中心建设中的存储数据迁移实践,结合行业经验,对银行业生产系统存储数据迁移方法进行了研究和总结。分析了银行业常见存储数据迁移场景、数据迁移中数据安全性、业务连续性和技术场景复杂度等相关难点、总结了数据迁移方案的内容、步骤、相应技术、工具,提出了迁移方案的相关建议,并以华为OceanStor Dorado 18500 V3存储为例,介绍了异构和纳管两种数据迁移实践。希望能抛砖引玉,为同业存储数据迁移提供有益的参考。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

4

添加新评论3 条评论

wuyandekusewuyandekuse系统工程师, icss
2022-04-08 17:28
平时都是业务运维,这个太详细,真好
sharkjamsharkjam运维人员, 深圳市某公司
2022-04-08 16:35
平时都是业务程序割接,很少接触数据割接,感谢分享
tom_wangtom_wang项目经理, 某证券有限公司
2022-03-28 13:47
数据迁移有很多种,找到最适合自己迁移方案,有条件的,可以先做迁移测试,迁移和测试都无异常,然后再正式迁移。
Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

NAS存储选型优先顺序调研

发表您的选型观点,参与即得50金币。