jumpp
作者jumpp2021-03-10 11:13
系统架构师, 某互联网银行

某银行基于华为高端存储实现双活数据中心建设—双活建设难点及运行维护经验篇

字数 1949阅读 3779评论 0赞 4

一、存储双活建设经验及难点分享

两地三中心的建设,是为业务连续性提供服务,在发生故障后,尽最大可能的保障数据能够被恢复,业务能够快速的恢复服务。因此在整个方案中需要尽可能多的假设各种故障场景,考虑各场景的应对方案,才能尽量减少在系统运行中发生的预期外的异常,保障系统的正常运行。

在整个方案中,重点需要关注以下的几个方面:

1.1. 典型场景故障切换及恢复

在异常故障发生时,双活典型故障场景下的处理方式如下:


1.2. 阵列故障

当数据中心一台阵列双控故障时,阵列心跳中断,发生仲裁,另一台存储获得仲裁,继续提供读写访问,业务无中断。假设阵列A的阵列双控故障,处理过程如下:

1.如果是阵列A主动通过管理软件下电,自身发送命令至阵列B,告知其接管业务。如果不是主动掉电,则会发生仲裁。

2.阵列A同时停工所有双活文件系统。

3.路径置所有至阵列A的路径为不可用,所有I/O直接转发送阵列B。

4.阵列B对新接收I/O记录差异位图。

阵列A的阵列恢复上电后,双活关系自动恢复,根据差异位图盘的记录自动同步新增数据,上层业务无影响。

1.3. 数据库故障

Oracle RAC采用“2+1”的部署方式,数据中心A部署2台服务器,数据中心B部署1台服务器:

  • 如果数据中心A的1台Oracle服务器故障,数据中心A内Oracle RAC单个数据库服务器故障,业务不切换到数据中心B,业务在DC A内的另外一个数据库服务器上运行。
  • 如果数据中心A的2台Oracle服务器故障,数据中心A内所有Oracle RAC数据库服务均短暂悬挂,随后,业务自动切换到数据中心B的数据库服务器上继续运行。

故障恢复后,数据库服务器故障修复后,自动加入集群,无需人工干预。

MySQL 使用“1主+N从”的部署方式,主数据中心部署主节点+1个从节点,备数据中心部署2个从节点,如果主数据中心的主节点发生故障,通过数据库管理平台快速发现异常,并通过一键切换的方式,将备数据中心的从节点自动转换为主节点。

二、运行维护问题

我们银行双活灾备系统运维最重要的考核点就是业务的连续性,如果自身信息技术人员的维护能力不足且无良好的运维工具,很难达到我们期望的效果。我们采用智能运维(AIOps)使用人工智能来简化IT运营管理,并在复杂的现代IT环境中加速和自动解决问题。存储现在的功能越来越多,责任也越来越大。一个高端存储故障,可能影响是致命的。因此,引入AI来预防故障就成为金融行业的刚需,DME(Data Management Engine,数据管理引擎DME)是华为数据基础设施智能运维平台,该平台通过与存储设备内置的设备AI以及云端AI(eService)实现三层AI协同,并通过融合统一的管理界面、自动化的闭环机制以及开放的API、旨在使能数据存储的“规划、建设、运维、优化”全生命周期场景的管理与运维自动化,简化存储管理,提升数据中心的运营效率。

在容量预测方面,使用了华为基于时序预测等关键技术,能够提供未来最长365天的容量趋势预测,并能够提前预警80%配额,提醒管理员提前扩容。

在风险盘预测方面,采用硬盘异常检测模型服务依托华为在硬件领域的技术及经验积累,基于硬盘关键数据信息构建机器学习模型,每日采集数据中心硬盘数据(硬盘ID、SN、硬盘非安全断电次数、通电时长),从历史数据中识别硬盘不同属性的突变模式对当前状态进行预测,,定期执行模型自优化,持续提升预测精度,可以为数据中心硬盘提供主动运维。

在存储性能异常预测管理方面,围绕存储性能相关问题提供全面分析处理方案。其中,基于时间序列预测等关键技术的性能预测特性以及基于阈值触发的性能潮汐预警,能够让管理员预知设备关键性能指标变化趋势,如时延、IOPS、块带宽等,从而提早发现设备性能瓶颈点,辅助管理员尽早规避可能发生的异常。

三、效果总结

在本次数据中心改造建设过程中,通过基础存储设备的本地双活和上层应用的双中心双活配置,高效可靠的实现了同城双中心的灾备建设。

1.通过基础层与应用层两套机制共同保障业务的连续性,相对于传统双活不同点在于实现业务层双活与基础存储双活的解耦,单边的存储故障与业务层故障均不会影响到业务的连续性。降低了双活数据中心对基础实施的依赖。

2.采用的华为高端存储,性能优异、稳定,而且存储的多冗余结构,最大保障了存储的可用性。秒级切换、自动恢复等特性极大的降低了运维负担。极简组网、免网关的特性简化了部署要求。

3.采用国产化的存储设备,提供了良好的可交付性,能够快速的部署和配置,并且满足了不断增长的国产化要求,降低了国际贸易冲突带来的风险。

系列推荐:

某银行基于华为高端存储实现双活数据中心建设 —需求分析及设备选型篇

某银行基于华为高端存储实现双活数据中心建设——整体架构方案设计篇

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

4

添加新评论0 条评论

Ctrl+Enter 发表

NAS存储选型优先顺序调研

发表您的选型观点,参与即得50金币。

作者其他文章

相关文章

相关问题

相关资料