铁兵
作者铁兵2022-08-19 14:37
技术经理, 某城商行

某银行核心业务双活存储架构升级建设实践分享

字数 3764阅读 4238评论 0赞 5

摘要

某银行在数据中心生产环境中首次使用华为高端存储设备替换原来的存储设备,构建起该银行新的同城双活数据中心双活存储架构。本文简要介绍了项目背景,存储设备选型的思路、存储架构设计方案、升级替换的经验和风险控制的几个要点。

笔者希望通过本文与银行同业们分享一点关于使用华为高端存储设备构建双活存储架构的经验,为促进我国银行业技术水平提升和新技术应用贡献一点微薄之力。

一、项目背景

某银行在2014年建设数据中心时采购了2套存储设备,当时容量规划满足是3至4年的需求,可用容量为45T,预计存放300台虚拟机的数据,这些虚拟机运行着除核心系统以外的所有关键业务。由于这两套存储设备已经上线运行了五年多时间,存储设备的存储空间使用率都接近80%安全值,因此我行启动双活存储设备升级替换采购项目,采购两套新存储设备替换现网两套存储,并将核心业务的业务虚拟机和文件系统迁移至新采购的两套上运行。通过新老存储的替换,满足我行未来数据增长和业务发展需求。

二、存储架构技术路线选型和功能测试

(一)技术路线选择

我行在2014年通过两套存储设备构建的银行数据中心同城双活的高等级灾备体系架构,对于重要信息系统的安全稳定运行起到了关键作用。该套双活存储的灾备架构经受了各种考验,包括单台光交机故障、裸光纤光衰异常等情况下也没有影响生产主中心的系统运行。双活存储架构降低了日常运维成本,各系统只需要维护一套生产环境,避免了人为运维灾备失效时导致无法切换的问题。

因此,我行通过灾备技术的跟踪和对比,计划未来继续在数据中心采用双活存储的解决方案来构建开放平台的数据中心业务连续性架构体系。

(二)存储功能测试

(1)调研存储厂商
我行在调研主流存储厂商时,重点关注同城双活案例数量、是否支持对称双活、是否支持NAS、产品关键功能和厂商报价等多个方面,选择了存储业界主流厂商华为、EMC、HDS、HP等进行调研和交流,并开展严格的POC测试。

(2)设计测试案例和场景
我行根据近几年双活存储的实际运维经验以及双活存储的设计原理制定了全面的测试用例,常见的用例有:主机层、存储层少量链路中断,一台存储的单个引擎故障,主备中心的一条复制链路中断等;极端情况下的用例有:主备中心任一台存储完全故障,主备中心的所有复制链路中断,主机出现APD(所有路径丢失)故障,主机出现PDL(连接存储路径永久丢失)故障,以及存储和仲裁同时故障等这些日常运维中不常见但有可能出现的场景。对所有故障测试场景都是采用直接断电的形式进行,最大程度的模拟突然停电等极端情况。测试包含硬件冗余性测试和性能测试。硬件冗余性和性能测试又分别包括单存储和双活存储的测试。测试内容如下:

(3)POC测试结论
通过POC测试,当前主流存储厂商基本都通过了上述功能和用例场景的测试,不同厂商的产品,在测试中表现的效果也有一些差异。

(三)招标采购

通过公共招标,最终华为公司的OceanStor 18000系列高端存储选型中标了我行的存储升级扩容项目。

以下章节将介绍我行使用两套华为存储OceanStor 18000系列高端存储设备,替换老的存储设备,创建新的双活集群,建立双活容灾机制,保障我行的业务连续性。

三、存储架构方案设计

(一)双活存储组网架构

下图是我行使用两套华为高端存储设备在两个数据中心之间构建双活存储架构图:

1、四台光纤交换机两两级联,并承载主机到存储的通信(块业务)。
2、两套华为Oceanstor 18000系列高端存储之间通过光交交换机互联,承载心跳通信和数据同步。
3、两台10GE以太网交换机和与现网VMware仲裁业务网络打通,组成仲裁网络,当两端存储系统间链路故障或设备故障时,由仲裁服务器根据仲裁结果决定由哪一端存储继续向主机提供业务。仲裁服务器配置两个网口,分别处于不同的网段,一个网口与两套华为OceanStor 18000系列高端存储的L1M0P0/L1M1P0/R1M0P0/R1M1P0网口通信,另一个网口与两套华为OceanStor 18000系列高端存储的L1M0P0/L1M1P0/R1M0P0/R1M1P0网口通信。

(二)存储划分规划

生产数据中心双活存储华为OceanStor 18800F V5高端存储初步规划SAN业务使用约253T(RAID6)空间。

同城数据中心另一台双活存储华为OceanStor 18800F V5高端存储初步规划SAN业务使用约253T(RAID6)空间,分别创建用于生产数据中心存储进行双活容灾。

四、实施经验及难点分享

(一)制订应用系统迁移计划

为了顺利完成新存储设备的升级替换,做好应用系统的迁移计划是非常重要的。

我行制订了应用系统规则:先边缘业务到核心业务、先简单到复杂、宿主机资源合理利用、目标存储资源合理利用等原则。在此原则基础上列出了业务迁移详细计划,主要包括两个阶段进行,第一阶段是迁移管理类业务,第二阶段是迁移在线交易类业务。我们制定了首套搬迁业务为日志服务器系统,二套搬迁数据仓库业务系统。在完成了首套和二套业务系统的搬迁,验证了业务搬迁的可行性后,按照虚拟机的业务级别进行搬迁。以我行应用系统分类为基准,依次搬迁四类业务、三类业务、二类业务、一类业务。每次搬迁结束预留一周的观察时间,确认业务运行稳定后再进行下一次的业务搬迁。

(二)实施数据迁移

(1) SAN存储数据迁移
SAN存储的迁移主要涉及VMware虚拟机的迁移。对于VMware虚拟机的迁移,使用VMware自身的Storage vMotion功能,Storage vMotion迁移对上层虚拟机和业务没有影响,能够平滑迁移,而且使用VMware多路径,避免了主机停机。迁移之前在华为OceanStor 18800F V5系列高端存储上按照之前VMware各集群Datastor的大小划分目标Lun大小,挂载到VMware主机下,开始进行vMotion迁移。

(2) NAS存储数据迁移
NAS迁移借助于MigrationDirector for NAS 存储数据迁移工具来完成,MigrationDirector for NAS可实现不同存储系统之间的数据迁移,保障迁移过程中的数据安全,同时也避免业务在迁移过程中长时间停机。完整的迁移过程至少包含1次迁移任务(首次迁移)和1次同步任务(增量数据同步迁移),业务切割前需要离线进行最后一次同步。

(三)存储运行状态监测
1、在项目实施过程中,我们重点对两套华为OceanStor 18000系列高端存储进行了深度巡检,检查存储的运行状况和稳定性,及时对存储进行热补丁的升级,保障新存储设备上线后稳定运行。

2、在数据迁移中和数据迁移完成后,我们对核心存储OceanStor 18800F V5进行了性能分析,并输出了性能分析报告,监测OceanStor 18800F V5在迁移过程中和数据全部迁移完成后的性能表现,都达到了预期的目标。

3、我们部署DME和eservice管理监控工具来管理和监控存储运行状态,及时获取存储告警异常信息。

4、在新存储设备上线后,我们还每季度定期对存储进行巡检,了解存储的运行状态。

五、风险管理

将数据中心生产环境使用华为高端存储升级替换原核心存储是本行非常重大的升级操作。本行是首次在数据中心核心关键区域使用华为高端存储设备替换原国外的存储设备,并且实现双活数据中心架构,存在较大的操作风险和运行风险。

为了避免在核心存储升级替换过程,以及后续使用过程中因新的存储设备自身问题引起业务中断等风险,本行认真梳理了该升级替换项目可能存在的风险,并采取了相应的风险控制措施:

1、开展充分的技术测试和功能验证。本行制订了详细和周密的技术测试方案和功能验证方案,并且还搭建了接近生产环境实际情况的测试环境,用以验证新存储设备的各项技术指标和功能指标。

2、采用稳妥的迁移替换策略,包括应急预案和切实可行的回退方案。要重点关注新设备上线后的设备故障风险,要做好新存储设备上发生数据丢失等极端突发情况的预案。

3、实施前务必要做好环境调研和项目规划工作。本次项目共历经现网情况调研,功能测试,存储网络改造,项目实施,数据迁移五个阶段,前两个阶段所用工时只占到整个交付过程的1/3,但却是最重要的阶段,根据收集到的正确现网信息,对做出正确的规划有指导性的意义。

3、认真细致的变更操作,重点是要在应用系统在迁移前后,分别做好数据分析和记录,要对比迁移前后的数据,及时做好参数优化和方案调整。

4、有效的项目管理。重点要做行内和厂商的人力资源调配,以及组织和协调工作。

六、总结

我行在数据中心生产中首次使用华为高端存储设备替换原来的设备,构建起新的同城双活数据中心双活存储架构,解决了原双活存储空间不足和原存储设备老旧等问题。

我行新采购的华为OceanStor 18000系列高端存储上线后,存储的性能稳定,存储端压力正常,读写时延正常。通过迁移后的的虚拟机性能基线分析,在性能和稳定性上都有了明显提升。

我行成功实现在生产核心上使用华为高端存储替代国外存储设备,在银行数据中心构建双活存储架构。目前已经稳定运行一年多时间,各项关键参数和指标运行正常。本次项目的成功上线,使我们更加坚定在银行核心业务上使用国产存储产品和技术。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

5

添加新评论0 条评论

Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

核心存储选型优先顺序调查

发表您的选型观点,参与即得50金币。

相关文章

相关问题

相关资料