chenmingfu
作者chenmingfu2020-12-30 11:01
基础架构组长, 西部某城商银行

某银行基于华为高端存储的数据迁移实践之迁移实施过程和效果篇

字数 2638阅读 3201评论 0赞 5

文章简介:

本文以某城商行新一代数据中心建设项目为背景,根据新旧两个数据中心间系统应用及业务数据平滑迁移需求,详尽阐述项目实施经验及迁移后效果,为同业进行关键应用系统及数据跨数据中心迁移提供可参考、可操作的真实案例和宝贵经验。

一、存储测试经验分享

存储设备是数据中心最宝贵的硬件资源,在投产使用前一定要进行充分的测试验证。

(一)破坏性测试

1、硬盘故障测试


2、控制器故障测试


3、电源模块故障测试


4、SAS级联线缆故障测试


5、接口模块故障测试


6、逻辑端口模块故障测试(只适用于NAS业务)




(二)IOPS性能测试

1、8KB 100%随机读命中为0

2、8KB 100%随机读命中为100

3、8KB 70%读30%写读命中为0

4、8KB 70%读30%写读命中为100

5、8KB 100%随机写命中为0

6、8KB 100%随机写命中为100

(三)存储写带宽性能测试验证


(四)存储读带宽性能测试验证


二、存储迁移实施经验分享

(一)存储替换迁移关键策略

随着企业业务应用的拓展和业务数据不断增长,作为 IT 基础架构的重要组成,存储系统不仅面临着存储容量与性能提升的需求,还需要适应系统架构的变化。由于系统架构越来越复杂、数据类型越来越多样性,存储替换迁移工作也需要越来越细致。存储替换迁移其实也是一个数据迁移的过程,首先我们需要充分了解常用的存储数据迁移技术。为了高效、安全、完整地完成存储替换迁移任务,我们需要结合不同存储各自系统特点及所承载业务系统的类型特点有策略地开展迁移相关的工作。针对不同的系统及不同的应用场景制定有针对性的迁移方案,切不可一刀切,也不能指望通过一个迁移方案就能够完成所有类型数据的迁移,没有绝对最好最完美的方案,只能根据实际情况形成符合自身的方案。

(二)数据库迁移注意事项

在进行数据库迁移恢复过程中,需要重点关注数据库归档日志空间使用率情况,在开启归档模式下,数据库恢复的过程中,将会产生大量的归档日志文件,如果数据量较大且归档日志空间未设置自动定时清理机制,数据库归档日志空间将很快被耗尽,归档日志空间被耗尽后,数据库将处于暂停工作状态,将会导致数据恢复工作处于暂停状态,在进行大数据量数据恢复且无人值守的情况下,将会严重影响数据恢复效率。针对此类情况,结合该银行数据迁移恢复实践,建议增加清理数据库归档日志定时任务(如:每间隔2分钟自动清理一次归档日志),数据迁移恢复顺利完成后,再取消定时任务,届时通过在数据库备份任务中增加删除归档日志机制,以避免归档日志空间耗尽导致的业务中断事件。

(三)常见数据迁移技术分享

当前,常用的主流数据迁移主要包含如下“五种武器”:

1、基于应用及虚拟机软件功能的迁移
主要包含数据库迁移、虚拟机迁移、MigrationDirector For NAS等。

2、基于卷管理软件(磁盘管理)功能的迁移
主要包含卷镜像、LVM mirror、VxVM mirror等。

3、基于操作系统自带命令集的迁移
主要包含Robocopy,dd,Rysnc等。

4、基于存储网络层功能的迁移
主要包含MigrationDirector For SAN、VIS虚拟化网关、存储异构虚拟化等。

5、基于存储增值软件功能的迁移
主要包含存储LUN Copy、存储远程复制等。

在选择迁移技术或工具时,一定要充分结合自身网络环境及对业务连续性的要求,选择最优的迁移方法,实现期望值。一般会根据数据类型选择不同的迁移工具或技术实现跨存储的数据安全平稳迁移。

(四)数据迁移完整性保障

数据迁移后需要落实好如下工作:一是数据完整性及一致性验证工作,比如迁移前后数据库信息的校对,文件系统则可以统计文件inode数和文件MD5校验;二是旧配置信息或者临时配置信息清理工作,配置信息是否暂时保留,保留多久,一般来说旧的配置信息都是在变更实施完成一段时间后才做清理,主要是方便回退;三是存储替换迁移前后的对比,替换迁移是否达到了迁移工作的预期,比如可以观察迁移前后的批处理作业或其他性能监控指标。这些工作有些是迁移完成后就必须开展的,有些是需要观察期的,都需要我们去落实完成的,否则会留下各种隐患,数据迁移工作的质量也难以得到保证。

(五)制定完善的应急预案及回退方案

应急预案和回退方案是每个变更操作必须充分考虑的,在实际存储替换迁移工作的过程中,依然会存在很多实施前未充分论证的细节,比如数据替换迁移过程中,由于各种原因迁移命令执行失败等异常情况。这些异常情况除了临场的应对解决之外,还需要我们能事前制定完整的存储替换迁移的应急预案和回退方案。一旦在计划时间内无法解决异常问题,需要果断采取应急预案和回退方案,毕竟数据丢失或者存储不可用会造成极其恶劣的影响。

(六)合理控制迁移时间窗口

由于待迁移的存储容量较大、涉及的系统较多、迁移方法所限,整个迁移工作可能会持续较长时间,部分待迁移系统的业务连续性要求较高,停机窗口都有一些限制。所以怎么去控制迁移时间窗口,做好迁移计划非常关键。

三、新存储带来的性能效果

经过本次新数据中心建设,全新的华为OceanStor 18500F V5全闪系列高端存储设备为新一代核心业务系统带来了较好的性能提升,联机交易响应时间由原来的8毫秒缩短至4毫秒,提升占比50%,批量交易运行时间由原来的90分钟缩短至55分钟,提升占比40%。

日间联机交易期间存储设备IOPS及MBPS占存储设备总体性能的6%,夜间批量运行期间存储设备IOPS及MBPS占存储设备总体性能的8%。

四、总结

我行通过基于数据库、虚拟化及存储网络等层面的迁移技术,圆满实现了各类应用系统的跨数据中心跨存储品牌跨数据库软件版本的安全平稳迁移,存储设备集中统一到华为OceanStor 18500F V5,数据库软件集中统一到Oracle 19c,虚拟机集中统一到VMware vSphere虚拟化资源池中。

目前新一代数据中心已进入运行维护阶段近10个月,通过持续不断的监控及维护,各项数据指标再次证明华为高端存储硬件的稳定可靠性。

本文结合我行数据迁移的实践工作,分析存储替换迁移过程中存在的难点、风险点,并具体解析其应对策略,希望给同行在跨数据中心存储替换迁移工作方面提供一种借鉴。

相关阅读:

某银行基于华为高端存储的数据迁移实践之需求分析及设备选型篇

某银行基于华为高端存储的数据迁移实践之方案设计篇

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

5

添加新评论0 条评论

Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。