jxfeng
作者jxfeng·2022-04-27 10:15
系统架构师·万达信息集团

政府行业基于华为高端存储容灾解决方案——方案实现与效果篇

字数 14388阅读 3875评论 2赞 10

摘要:近几年来,由于自然灾害以及人为误操作等因素给电子政务等系统造成的损失除了导致业务无法正常进行外,还给国家经济和百姓生活带来损失,容灾系统建设已经成为了必选项。

本文依据 《信息安全技术信息系统灾难恢复规范》等国家相关标准对政务 系统的业务风险、影响和痛点进行分析,给出了容灾系统建设的必要性和容灾建设级别。不同的级别对应的策略也不尽相同,需要设计满足 RPO 和 RTO 要求的容灾系统架构和技术实现方案。通过对不同的技术路线进行比选,最终确定了基于华为 OceanStor Dorado 18000 系列高端存储阵列的容灾解决方案,实现了政务系统的持续化运作,在灾难发生时仍然可以提供政务服务。

全文共分为三个部分:需求分析篇、架构设计篇、方案实现与效果篇;本文为第三部分方案实现与效果篇

第一章 容灾方案实现要点

容灾方案的实现主要是 根据既定的策略和灾难恢复等级制定具体的技术方案。

本期容灾项目建设的总体需求是构建以电子政务等核心业务为主要的容灾保护系统。依据建设需求分析我们已经制定了具体的技术实现策略并确定了灾难恢复的等级。

本期容灾项目建设的总体灾难恢复策略主要是实现本地数据存储中心,实现对本地数据的保护。灾难恢复等级政务核心系统主要以 6 级为主,其他非核心业务系统依据需求分析确定为 5 级和 4 级。

根据确定的灾难恢复策略和容灾级别建设同城 / 异地灾备中心,对电子政务核心业务系统进行应用级容灾保护,最终构建一个科学合理的容灾系统。

在具体方案实现过程中除了需要满足本期容灾项目的建设需要,还需要考虑实际的基础设施环境并满足未来 3-5 年的业务发展需要。特别是在容灾数据保护方面,要考充分考虑多个不同地域的远距离数据传输问题、数据一致性和数据恢复等问题,在确保数据安全的前提下保证电子政务系统的业务连续性。

第二章 灾难恢复策略的实现

2.1 总体实现设计

根据本期项目的总体技术规划,核心存储均构建在高性能 SAN 存储上,并根据业务特点采用不同性能的存储介质。所有数据中心存储设备均连接到 SAN 网络。业务系统通过备份系统进行本地系统备份,从而保证本地系统的备份与恢复。通过这样一个高性能存储的架构设计,可以有效的某部委现有和未来的电子政务业务。

根据方案规划,本次项目建设中存储系统将实现以下功能:

本地数据存储:本地部署高性能存储设备并做好本地数据备份。

同城容灾存储:本地 / 同城数据中心所有数据都存在各自数据中心的存储上,两数据中心存储互为双活,两份数据,实时同步。

异地数据备份:核心数据通过远程链路备份到异地容灾中心,进行数据备份和恢复。

2.2 具体实现方案

基于政务行业的华为 OceanStor Dorado 18000 系列高端存储容灾解决方案将提供统一节约的应用级容灾解决方案,将传统的分散、分层、异构的传统数据中心架构,改造为全扁平式、点到点全互联、统一资源管理的云灾备数据中心架构。将不同地域、不同规模的委办接入数据中心看做完全对等的节点,混合虚拟化(兼容物理和虚拟资源)为一个 “ 逻辑资源池 ” ,统一管理、统一呈现、统一运营。

设计基于政务行业的 华为 OceanStor Dorado 18000 系列 高端存储容灾解决方案将具有应用级容灾保护和远程数据级灾备保护的能力。可以为各部委和市级委办单位信息系统平台上运行的核心业务系统提供应用级容灾解决方案,针对不同的信息系统特点,建立统一接入、统一规划、统一管理的应用级灾备体系。

拓扑结构图如下所示:

2.3 容灾系统架构

容灾系统架构实现的基础是 华为 OceanStor Dorado 18000 系列 高端存储。基于 华为 OceanStor Dorado 18000 系列 高端存储建设存储资源池、各用户不同级别灾备服务接入、灾备服务按需提供和统一运维管理等内容。配合计算资源和网络,全面实现服务的落地,构建扩展性好、信息高度共享的灾备一体化系统。

华为 OceanStor Dorado 18000 系列 存储系统是华为根据存储产品应用现状和存储技术未来发展趋势,推出的新一代高端存储产品,为企业核心业务提供最高水平的数据服务。

随着电子政务系统的进步和业务的发展,不断增加、累积的政务数据对存储系统提出了更高的要求。但传统的存储系统无法跟上其数据增长的步伐,出现诸如存储性能成瓶颈,维护、扩容操作导致业务中断,冷热数据无法剥离,同等对待各种业务数据响应时间等造成存储资源浪费的问题,使存储系统的运维成本占 TCO ( Total Cost of Ownership )的比例越来越大。为了解决这些问题,华为推出了企业级 18000 系列高端存储系统。

华为 OceanStor Dorado 18000 系列 高端存储系统秉承灵活、可扩展的设计理念,该架构采用创新的 SmartMatrix 2.0 智能矩阵架构,该架构采用多引擎(每个引擎最多包括四个控制器,引擎内支持后端互联和持续镜像)的横向扩展体系,最多可提供 4 个系统机柜和 20 个硬盘柜,无缝配合企业数据中心高度整合、高效率和可扩展的特点,能够满足数据中心大型数据库 OLTP/OLAP 、高性能计算、集中存储、备份、容灾和数据迁移等不同业务应用的需求。

华为 OceanStor Dorado 18000 系列 高端存储系统不但能够为数据中心提供性能出色的存储服务。同时,提供各种完善的数据备份和容灾方案,保证数据业务顺利、安全的运行。可以针对常见的数据中心业务提供关键业务存储、虚拟环境存储、多业务混合存储,以及关键数据两地三中心容灾等解决方案。

2.3.1 容灾存储系统架构

华为 OceanStor Dorado 18000 系列 高端存储系统内嵌多种数据保护功能,包括快照、远程复制、 LUN 拷贝以及克隆等。其中远程复制可以提供对 RTO 和 RPO 有严格要求的两地三中心容灾解决方案,在本次项目中,在本地生产中心、同城 / 异地灾备中心分保部署 华为 OceanStor Dorado 18000 系列 高端存储系统组建基于存储的容灾系统解决方案,具体架构如下图所示:

2.3.2 本地存储系统架构

华为 OceanStor Dorado 18000 系列 高端存储系统采用创新的 SmartMatrix 2.0 智能矩阵架构、领先的硬件规格以及 100% 的内部冗余设计,有效满足关键业务存储的容量、性能以及 7×24 小时不间断服务的要求。可适用于核心电子政务系统等大型关键业务系统的数据处理。

在本次项目中,将使用 华为 OceanStor Dorado 18000 系列 高端存储替代原有的存储系统,并和同城 / 异地的 华为 OceanStor Dorado 18000 系列 高端存储组成容灾系统解决方案。

2.3.3 容灾中心 架构

容灾中心部分主要包括存储资源池、主要功能区以及统一管理平台。容灾中心按业务职能分区,主要分为数据容灾区、应用容灾区、恢复演练区和管理中心。各个职能分区模块化构建,视具体需求进行建设。根据不同接入用户的特点和业务情况,主要分为非结构化数据接入场景下数据级和应用级容灾、结构化数据接入场景下数据级和应用级容灾。

容灾中心统一规划建设,构建统一的运维管理平台,专业化运作,使各容灾用户不再需要单独自建、更新和升级技术环境。基于服务提供的模式满足各容灾用户灾备需求。按服务提供的类型,主要分为:

  • 数据容灾区,一般只作为数据级容灾备份设计,不在灾备中心提供业务切换环境;
  • 应用容灾区,提供业务的快速切换,满足业务连续性要求高的容灾用户灾备需求;
  • 恢复演练区,满足各容灾用户对灾备数据和流程的恢复演练需求,提高整个系统灾难恢复的可用性;
  • 灾备管理中心,配置统一运维管理平台和操作平台,供管理员对灾备中心资源统一调度和分配,以及进行演练和切换的管理。

下面将就存储资源池和其它主要区域功能和设计进行介绍:

(一)存储资源池

存储资源池化是形成容灾的基础,随着容灾数据量以及接入的数量的增长,存储的需求随之快速增长,直接导致了存储管 理陷入困境,总体拥有成本( TCO )大大上涨。存储资源池化技术可以把多个、多种存储通过一定的方式统一管理起来,提供大容量、高数据传输性能的存储资源池。

在本项目中,根据前述技术比较,采用基于 SAN 架构的统一存储设备。同时采用存储虚拟化技术整合异构存储系统并作统一数据管理。与主机无关,不占用主机资源;能够支持异构主机、异构存储设备;提高存储设备总的利用率,减少设备数量,降低 TCO ;构建统一管理平台,简化管理;存储扩容操作简单,对原网改动小,不中断业务,可扩展性好。

(二)应用容灾区

应用容灾区主要解决国标 5/6 级应用容灾需求,为各容灾用户提供应用级容灾需求,当容灾用户生产环境灾难发生时,可以快速容灾切换,将容灾用户业务切换至容灾中心对外提供服务。应用容灾区需要部署与容灾用户生产环境配置相同或接近的服务器资源。

(三)恢复演练区

  • 本地数据恢复

如果各容灾用户在本地有近线存储,且近线存储上的灾备数据完好,可以优先选择本地恢复。方案针对不同的故障场景,提供完备的预案,用户可以根据本地恢复预案进行实施,快速将近线存储上的数据恢复至原生产阵列,并恢复业务。

  • 灾备中心数据恢复

如果各容灾用户本地没有近线存储,或者本地已经没有可用的数据,通过统一灾备管理平台进行容灾切换,在灾备中心拉起业务,从而恢复整个业务系统,恢复流程如下图所示:

灾备中心数据恢复流程示意图

容灾演练

直接在应用容灾区进行容灾演练 应用容灾区配置有与各容灾用户 1:1 的计算资源池资源,可通过对需要进行容灾演练的 LUN 打快照的方式将快照 LUN 映射给应用容灾区的演练服务器,进行容灾演练,确保容灾数据可用性。

在恢复演练区进行容灾演练 将各容灾用户要演练的数据,通过统一灾备管理平台复制到容灾恢复演练区,在容灾恢复演练区部署容灾用户的业务系统,将业务系 统拉起,观察数据的可用性,确保容灾数据数据的可用性。

容灾演练流程如下图所示:

容灾演练流程示意图

灾备中心的核心作用是为了在发生灾难事件导致数据不可恢复时,能够将重要的信息数据进行有效的恢复,将各接入用户的损失降到最低,因此,为了确保灾备中心中的灾备数据在需要时能够恢复,必须设立一套行之有效的数据恢复及演练机制并设立一个独立于备份环境的恢复演练环境。

恢复演练区的作用主要有:

  1. 对数据存储区的核心阵列上的灾备数据进行可用性、完整性的验证;
  2. 模拟接入用户真实系统平台下,测试灾备数据的可恢复性。为了满足各个接入用户应用系统定期(半年或一年)灾难恢复演练,该设计考虑同时满足不同接入用户进行数据可用性演练。
  • 恢复演练区设计

恢复演练区与其他各区在逻辑上是隔离的,各容灾区因为容灾等级不同,数据安全级别不同,所采用的演练方式也不相同。具体可参考对应数据容灾区与应用容灾区的恢复与演练流程。

当需要数据恢复时,通过 IP 网络进行数据镜像,把数据容灾区与应用容灾区的数据迁移到恢复演练区的阵列上,然后再利用恢复演 练区的服务器,进行数据恢复或演练。如下示意图所示:

图 6-13 数据恢复演练架构示意图

(四)灾备管理中心

灾备管理中心的主要职责为对整个系统进行监控维护, 7×24 小时监控网络和业务系统的运行状况,及时发现问题并上报,进行日常维护和故障处理。同时,管理区还负责对整个灾备中心的总体环境的监控,如机房的监控,园区的监控等,确保整个灾备中心的安全运转。

灾备管理中心设计灾备管理中心主要硬件由灾备系统管理服务器、客户端及其它系统监控设备组成,提供给容灾中心管理员进行系统管理。管理服务 器安装灾备系统管理平台软件,整个软件系统使用 B/S 架构,便于管 理员进行本地或者远程访问和管理,管理员使用客户端登录管理服务器提供的统一管理平台后,可以对物理服务器、交换机、存储资源、 虚拟化网关、云计算计算资源等相关资源注册和管理。

灾备管理中心功能管理中心统一管理平台支持整个网络设备拓扑分权分域管理,使得不同的管理员只能负责权限范围内的设备管理。权限主要分为资源、容灾、告警和报表管理等。可以设置不同的管理员分别负责不同的设备集合,避免交叉管理引起管理混乱,权责不清。

另外,支持对整个灾备系统进行可视化拓扑管理,不仅包括通常的设备拓扑,还包括灾备系统最重要的容灾业务拓扑。任意设备故障和容灾业务故障,可以直观通过拓扑图进行显示。还可以将拓扑图进 行打印输出,以便适应各种使用场景的需要。

各管理员可以根据实际需要,查看整个灾备系统存储系统的性能 和容灾的报表,自定义时间段进行输出。便于管理员进行系统情况的汇报,还可以根据当前报表情况预测后续系统需求,及时发现性能瓶颈和扩容问题,进行性能优化和扩容,以保障系统高效运行。

可以定期对整个灾备系统最关键的存储设备进行巡检,提前预防各种故障的发生。支持对灾备系统服务器、交换机和存储系统的告警 查看,满足日常管理的需要。

该区域与容灾中心存储区网络逻辑隔离,对整个系统实行带外 的管理。局域网双冗余星型结构,保证管理区网络的可靠性。

2.3.4 用户接入架构

各个用户单元的业务系统可以灵活采用多种数据采集方式将数据集中到容灾中心。各接入容灾用户根据自身需求和数据类型选最佳的方式实现容灾的接入。

方案架构简要概述如下:

容灾用户可以根据自己的业务类型和平台,选择不同的接入方式 将数据分流至近线存储系统。

  • 异地长距离容灾接入使用异步方式,周期将数据由近线存储同步 至容灾中心存储资源池,最小复制周期建议根据容灾链路带宽和需求确定。
  • 异地容灾链路带宽根据实际需要配置,最小建议值为 100M ,本项目中为 622M
  • 容灾中心存储资源池建议由虚拟化存储平台构建,根据不同的性能要求配置不同性能的磁盘类型。
  • 容灾中心功能区划分根据实际需求进行定制,可以进行动态扩展。

2.4 容灾技术架构

2.4.1 同城数据复制技术的实现

同城数据复制技术采用了双活数据复制技术。指的是所有生产系统同时部署在两个中心,两个中心处于双活状态。当一个中心发生灾难事件时,不影响应用系统的运行,另一个中心将继续提供业务。为保证双中心同时提供业务,两中心的资源配置和负载完全一样,各中心没有闲置资源,既可以应对日常业务的突发高峰,同时又极大的提高了业务系统的高可用性,尤其对 7 × 24 小时服务的业务系统。

为确保两个中心的同时运行和无缝切换,需要建立两个中心之间的高速网络连接,以承载两个中心的数据同步和实时切换,因此这种模式对两个中心网络互连线路的数量、带宽和稳定性要求非常高。

通过建设同城容灾的建设,构建完整的同城双活中心架构。在本项目中采用了基于华为 OceanStor Dorado 18000 系列 高端存储 HyperMetro 技术 的解决方案。

华为 HyperMetro 特性又称双活特性。双活特性中的两个数据中心互为备份,且都处于运行状态。当一个数据中心发生设备故障,甚至数据中心整体故障时,业务自动切换到另一个数据中心,解决了传统灾备中心不能承载业务和业务无法自动切换的问题。提供给用户高级别的数据可靠性以及业务连续性的同时,提高存储系统的资源利用率。

华为提出以 18000 系列高端 存储系统为基础的存储双活架构,为客户建设业务不间断运行的解决方案,具体本地 / 同城数据中心部署逻辑架构如下:

通常部署在同城或相近城市存在的两个数据中心,其物理距离在 300km 以内,两个数据中心均处于运行状态,可同时承担相同业务,提高数据中心的整体服务能力和系统资源利用率,当单数据中心故障时,业务自动切换到另一个数据中心。

对于跨数据中心场景,在长距离传输时,方案需要配套波分设备来保证网络传输时延。同时存储侧部署存储双活镜像通道,保证双活业务的运行。

双活解决方案的整体特点:

数据双写技术,确保存储冗余,单存储或生产中心故障时,数据零丢失,业务快速切换,最大化保护客户业务的连续运行。满足业务 RTO=0 , RPO=0 的业务需求。

2.4.2 异地数据复制技术的实现

异地数据复制技术采用了实时异步的数据复制技术。指的是所有生产系统同时部署在两个中心,异地容灾中心处于备份态。当生产中心发生灾难事件时,在经过系统切换后,将业务运行在异地数据中心继续提供业务。异地容灾中心通常根据实际情况提供部分或全部业务,两中心的资源配置和负载也可以不完全一样,尽量减少异地容灾中心的闲置资源,平时仅做应急接管,主要由同城中心承担大部分故障处理场景。

为确保异地容灾中心能够进行应急接管,需要建立两个中心之间的有效网络连接,以承载两个中心的数据同步和应用切换,这种模式对两个中心网络互连线路的数量、带宽和稳定性要求没有同城中心高,可以采用异步传输模式。

通过建设异地容灾中心,构建完整的异地数据复制技术架构。在本项目中采用了基于华为 OceanStor Dorado 18000 系列 高端存储 HyperReplication 技术 的解决方案。

华为 OceanStor Dorado 18000 系列 高端存储 的远程复制特性又叫 HyperReplication 特性。当存储系统运行业务时,远程复制支持以下两种复制模式:

1 、同步远程复制(HyperReplication/S):实时地同步数据,最大限度保证数据的一致性,以减少灾难发生时的数据丢失量。

2 、异步远程复制(HyperReplication/A):周期性地同步数据,最大限度减少由于数据远程传输的时延而造成的业务性能下降。

(一) HyperReplication/S 的主要功能

  • 零数据丢失

OceanStor 企业统一存储系统同步远程复制对主、从 LUN 同时进行数据更新,能够保证 RPO 为 0 。利用同步远程复制建立的容灾系统,能够实现灾难恢复级别较高的数据级容灾( “ 第 6 级:数据零丢失和远程集群支持 ” )。

  • 支持分裂模式

OceanStor 企业统一存储系统同步远程复制支持分裂模式,在分裂状态下,生产主机的写请求只会写到主 LUN ,并通过差异日志来记录主、从 LUN 数据之间的差异。当用户希望重新保持主、从 LUN 数据一致时,可以进行一次手动启动同步操作,同步过程就是将差异日志中标为 “ 有差异 ” 的数据块从主 LUN 增量拷贝到从 LUN 的过程,其 I/O 处理原理与初始同步的原理类似。分裂模式可以灵活地满足用户的一些需求:如暂时性的链路维修、网络带宽扩容、需要从 LUN 保存某一个时间点的数据等等。

  • 快速响应故障和故障恢复

OceanStor 企业统一存储系统同步远程复制检测到系统故障(包括链路断开、主 LUN 或从 LUN 故障导致的 IO 错误等等)时能够立即进入断开状态。在断开状态下,同步远程复制的 I/O 处理原理与分裂时类似,只将 I/O 写入主 LUN 并记录差异(注意:若故障为主 LUN 故障,那么在故障排除之前主 LUN 无法接收生产主机的 I/O 请求)。当这些故障排除时,同步远程复制可以在极短的时间内根据恢复策略进行相应的操作:如果恢复策略为自动恢复,同步远程复制会自动进入 “ 同步 ” 状态,将有差异的数据增量同步到从 LUN ;如果恢复策略为手动恢复,同步远程复制会进入 “ 待恢复 ” 状态,等待用户手动启动同步。由于断开后的同步采用的是增量同步,可以大大地减少同步远程复制的灾难恢复时间。

  • 支持从 LUN 可写功能

从 LUN 可写是指从 LUN 可以接收来自主机的数据。 OceanStor 企业统一存储系统同步远程复制支持从 LUN 可写,使备用生产主机能够直接读写从 LUN 数据,该功能主要有两类应用场景:

1) 用户需要在不影响主 LUN 业务的情况下使用从 LUN 进行数据分析、挖掘;

2) 当主站点生产阵列故障,从站点的灾备阵列需要接管业务,但无法进行正常的主从切换或无法与生产阵列正常通信。

默认情况下,远程复制从 LUN 是只读的,如果主 LUN 出现故障,需要管理员执行 “ 取消远程复制从 LUN 写保护 ” 操作,手动设置从 LUN 为可写,以便从站点灾备阵列能够接管主机业务,保证业务持续运行。

同步远程复制设置从 LUN 可写有以下两个条件:

1) 远程复制处于分裂或异常断开状态;

2) 远程复制从 LUN 数据必须是完整的(当从 LUN 数据不完整时,从 LUN 数据此时不可用,不能设置为从 LUN 可写)。

OceanStor 企业统一存储系统支持对从 LUN 的写记录差异,当主站点生产阵列恢复后,可通过比较主从差异,进行增量同步来使得灾难恢复后业务快速回切。

  • 支持复制的主从切换

主从切换是指远程复制对中 LUN 的主从关系转换的过程。 OceanStor 企业统一存储系统同步远程复制支持用户进行主从切换操作。

主从切换取决于从 LUN 数据状态,从 LUN 数据状态标识了从 LUN 当前数据的可用情况,分 “ 完整 ” 和 “ 不完整 ” 两种。

1) 完整:从 LUN 上的数据是主 LUN 之前一个时间点的副本,此时从 LUN 的数据是可用的,但不一定与当前的主 LUN 数据完全一致;

2) 不完整:从 LUN 上的数据不是主 LUN 之前一个时间点的副本,从 LUN 的数据不可用。

如上图所示,主站点的主 LUN 在切换后变成了新的从 LUN ,而从站点的从 LUN 在切换后变成了新的主 LUN 。经过一些在主机侧的简单操作以后(主要是将新主 LUN 映射给备用生产主机,也可提前映射),从站点的备用生产主机接管业务并对新主 LUN 下发读写请求。进行主从切换时,从 LUN 数据状态必须为 “ 完整 ” ,主从切换完成后进行的同步为增量同步,即只拷贝差异数据。

同步远程复制进行主从切换的条件如下:

1) 同步远程复制在正常状态下可以进行主从切换;

2) 分裂状态下,需要设置从 LUN 可写才能进行主从切换。

  • 一致性组相关功能

在大中型数据库应用中,数据、日志、修改信息等存储在磁盘阵列的不同 LUN 中,缺少其中一个 LUN 的数据,都将导致其他 LUN 中的数据失效,无法继续使用。如果需要同时对这些 LUN 进行远程容灾,那么就要考虑如何保持多个远程复制对的数据一致性。 OceanStor 企业统一存储系统同步远程复制提供一致性组功能来保证多个远程复制对之间复制数据的一致性。

一致性组是多个远程复制的集合,可以确保单个存储系统内,主机在跨多个 LUN 进行写操作时数据的一致性。主站点生产阵列一致性组内的数据完成写操作后,再通过一致性组的同步功能将所有组内数据同时复制到从 LUN ,从而保证容灾备份数据的完整性和可用性。

用户创建一致性组以后,可以将多个远程复制对添加到一致性组中。一致性组可以进行分裂、同步、主从切换、设置从 LUN 可写等操作,在进行这些操作时,一致性组的所有成员对保持步调一致。当遇到链路故障时,一致性组的所有成员对会一起进入异常断开状态。当远程复制故障排除后恢复正常状态时再重新进行数据的同步,从而保证从站点灾备阵列数据的可用性。

OceanStor 企业统一存储系统对同一个一致性组中主 LUN 和从 LUN 的工作控制器没有限制,即:不同的主 LUN 或从 LUN 可以处于不同的工作控制器,为用户提供更为灵活多变的配置方式。

(二) HyperReplication/A 的主要功能

  • 秒级 RPO

OceanStor 企业统一存储系统异步远程复制采用了创新的多时间片缓存技术, Cache 中的数据和与 Cache 交互的 IO 都携带时间信息,在进行复制和同步时,直接从主 LUN Cache 中读取相应时间片的数据复制到从 LUN ,降低了时延,同时降低了传统异步远程复制快照对性能的影响,因此同步周期可以缩短为秒级。

由于异步远程复制主 LUN 上的数据更新不是立即同步到从 LUN 的,所以 RPO 取决于用户设置的同步周期, OceanStor 企业统一存储系统异步远程复制可以设置不同的同步周期(范围是 3s ~ 1440min )。

  • 快速响应主机写请求

OceanStor 企业统一存储系统异步远程复制可以实现对应用主机写请求的快速响应。主机对主 LUN 的写请求在写入 Cache 后即可响应主机写完成,不必等待数据写到从 LUN ,并且,数据由主 LUN 到从 LUN 的同步过程是在存储后台进行的,对主机的影响很小。

  • 支持分裂模式和故障快速恢复

OceanStor 企业统一存储系统异步远程复制与同步远程复制类似,同样拥有分裂和断开后恢复的功能。

分裂以后的异步远程复制,不会再进行周期性的同步,直到用户手动进行 “ 同步 ” 操作,然后按照制定好的同步策略(手动或自动)进行同步。

OceanStor 企业统一存储系统异步远程复制提供三种数据同步的方式(同步类型)供用户选择:

手动:用户需要手动进行主 LUN 和从 LUN 的数据同步。选择手动同步时,用户可以根据自己的意愿将数据更新到从 LUN ,以此来决定从 LUN 的数据是哪一个时间点上主 LUN 的副本。

同步开始后定时等待:启动同步时开始计时,等待一个同步周期后再次启动同步并计时,即:在最近一次同步操作开始时,经过用户设置的 “ 定时时长 ” ,自动进行主 LUN 和从 LUN 的数据同步。

同步完成后定时等待:上一次同步完成以后再进行下一次同步周期的计时,即:在最近一次同步操作完成后,经过用户设置的 “ 定时时长 ” ,自动进行主 LUN 和从 LUN 的数据同步。

三种不同的同步类型应用于不同的场合,用户可以根据具体情况进行选择。

  • 从 LUN 数据完全保护

OceanStor 企业统一存储系统的异步远程复制支持对从 LUN 数据的完全保护。在从站点,主机对从 LUN 的读、写有权限控制,当同步中断或从 LUN 数据不可用时,可以将前一个 TPX 周期的数据恢复到从 LUN ,覆盖第 TPX+1 个周期的数据,使从 LUN 回退到最近一次同步开始前时间点的可用数据。

  • 支持从 LUN 可写功能

OceanStor 企业统一存储系统异步远程复制与同步远程复制类似,也支持从 LUN 可写。

默认情况下,异步远程复制从 LUN 是只读的,设置从 LUN 可写需满足以下两个条件:

远程复制处于分裂或异常断开状态;

远程复制从 LUN 数据必须是完整的(当从 LUN 数据不完整时,从 LUN 数据此时不可用,不能设置为从 LUN 可写)。

当设置从 LUN 可写时,若从 LUN 存在保护时间点 TPX ,则会触发回滚,将从 LUN 的数据回滚到 TPx, 使从 LUN 数据恢复到最近一次可用数据。

OceanStor 企业统一存储系统支持对从 LUN 的写记录差异,当主站点生产阵列恢复后,可通过比较主从差异,进行增量同步来使得灾难恢复后业务快速回切。

  • 支持复制的主从切换

OceanStor 企业统一存储系统异步远程复制也支持用户进行主从切换操作,基本原理请参考 2.3 章节的主从切换内容。

OceanStor 企业统一存储系统异步远程复制进行主从切换需满足如下条件:

异步远程复制处于分裂状态;

分裂状态下,需要设置从 LUN 可写;

异步远程复制的从 LUN 不在回滚状态。

  • 支持一致性组功能

与同步远程复制相同, OceanStor 企业统一存储系统的异步远程复制也支持一致性组的相关功能,包括一致性组的创建、删除、添加成员、删除成员等。

(三) HyperReplication 的新特性

  • 复制模式在线切换功能

OceanStor Dorado V6 及后续版本支持同步复制模式和异步复制模式在线平滑切换,可灵活满足客户业务场景中数据复制模式灵活转换的需求:

当链路异常、从端性能较低、网络带宽不稳定、主端业务量短时间内突增等情况发生时,可以通过将 “ 复制模式 ” 由 “ 同步 ” 切换为 “ 异步 ” ,避免因数据的实时同步不畅导致的业务影响与数据不一致的现象。

当主端业务量平稳、 RPO 要求提高等情况下,需要将 “ 复制模式 ” 由 “ 异步 ” 切换为 “ 同步 ” ,实现数据的实时备份。

  • 用户快照同步功能

异步远程复制支持用户快照同步功能。可以在远程复制同步过程中将用户创建的快照同步到从端。主要应用场景包括:

主端创建的快照在从端可利用:在容灾演练或者容灾切换等场景下,可以在从端对这些快照进行操作,例如访问、创建克隆、恢复等操作。

恢复指定时间点的数据:当主端存储系统故障或整个站点故障时,用户可以使用指定时间点的快照对从端 LUN 进行回滚。

主要技术架构下图所示:

  • 链路压缩

链路压缩是一种在线压缩技术。异步远程复制的过程中,在主站点提前对当前传输的数据进行压缩传输,当从站点接收到数据后,再进行解压操作,从而降低传输带宽的消耗。 OceanStor Dorado 支持的链路压缩有以下特点:

  • 数据在线压缩

对链路上传输的数据进行在线实时压缩。

  • 智能压缩

系统提前识别数据的可压缩性,从而最大程度的避免无效的压缩,提升传输效率。

  • 高可靠性和安全性

采用无损压缩技术保证数据安全性。采用多重校验技术保证数据可靠性,当从端收到数据后,会先校验数据的正确性,解压完成会再次校验解压前后数据是否一致。

  • 用户无感知

链路压缩不影响主机在线业务,用户无感知。

  • 兼容全量、增量备份

链路压缩不区分上层业务,对所有需要进行网络传输的数据进行压缩。

2.4.1 远程数据备份和恢复的实现

在本项目中,结合 华为 OceanStor Dorado 18000 系列 高端存储的快照和 HyperReplication 远程复制技术还可以实现对电子政务核心业务数据的远程数据备份和恢复。

在面对难以快速备份和恢复的政务庞大业务数据,备份过程影响数据安全性和业务连续性。如何在不影响业务的前提下既能快速备份和恢复数据,又能降低成本投入,成为本次项目重点关注的问题。

针对该问题,可以采用 华为 OceanStor Dorado 18000 系列 高端存储结合快照和 HyperReplication 远程复制技术而产生的 HyperVault 特性。

HyperVault 即一体化备份,是一种基于文件系统的数据备份和恢复技术。一方面, HyperVault 可通过快照和远程复制技术将数据按设定策略快速备份到源端或者备份端存储系统。另一方面,当本地数据失效时, HyperVault 可及时指定某一个本地备份快照进行快照回滚或者指定某一个备份端快照进行全量恢复。

  • HyperVault 的数据备份包括本地备份和异地备份,是基于文件系统的快照和远程复制技术实现的。
  • HyperVault 的数据恢复包括本地恢复和异地恢复,是基于文件系统的快照回滚和远程复制技术实现的。

HyperVault 特性的主要特点包括:

  • 本地备份和恢复时间极短。通过该特性,可秒级生成本地备份快照,获得一致性数据副本,又可进行快照回滚,即时恢复所需数据。
  • 基于变化数据块增量备份。异地备份时,仅初始对文件系统数据进行全量备份,后续只备份增量数据,有效节约了带宽。
  • 数据备份策略灵活且可靠。 HyperVault 支持自定义设置备份策略和副本阈值,且任何一份备份数据失效都不会影响后续的备份数据。

HyperVault 可以应用于数据备份和数据恢复等场景。

1、数据备份场景

华为 OceanStor Dorado 18000 系列产品之间数据的备份无需备份软件,使用 HyperVault 即可完成存储产品间的数据备份,有效保证了用户数据的安全性和可恢复性。 HyperVault 用于数据备份的场景示意图如下图所示:

HyperVault 提供本地备份和异地备份两种数据备份方式。本地备份可配置密集时间周期的备份策略,用于满足用户快速备份需求。同时,在生产数据中心和备份数据中心网络断开时,可进行本地备份。异地备份可配置时间周期稀疏的备份策略,一次全量备份,永久增量备份,安全性和可靠性高。

2、数据恢复场景

当源文件系统数据损坏时,可以从源端存储系统或者备份端存储系统获取故障时间点之前的备份快照进行数据恢复,将用户损失降到最低。 HyperVault 用于数据恢复的场景示意图如下图所示:

HyperVault 提供本地恢复和异地恢复两种数据恢复方式。本地恢复是从本地备份副本中选择快照,采用快照回滚技术即时恢复数据。异地恢复是在本地快照不满足数据恢复要求时,选择备份端存储系统的可用快照并将其全量复制到源端存储系统,从而减少数据丢失。

2.5 容灾解决方案优势

容灾解决方案主要有以下三大亮点:

1.集中建设

  • 各个业务系统数据统一大集中,避免重复建设,提高资源利用率,大大降低容灾系统建设本。
  • 存储系统支持高中低端存储容灾业务直接互通,有效降低整个方案 TCO 。
  • 资源集中共享,管理员的管理运维成本也更低。
  • 接入方式部署简单,对原业务系统影响小,降低接入成本。

2.便捷管理

  • 基于华为 OceanStor Dorado 18000 系列高端存储的统一的容灾管理平台,多站点统一管理,拓扑管理、告警管理 使管理更简单、更方便。
  • 完善的用户权限配置,实现服务器、存储等资源的分权分域管理, 不同的用户登录管理平台也只能查看和操作权限范围内的设备,管理更安全。
  • 管理权责清晰,使用登录和操作都有详细日志。

3.弹性扩展

  • 容灾存储模块化设计,部署简单,易于扩展。
  • 采用华为 OceanStor Dorado 18000 系列高端存储的高扩展性设计,确保可在前期部署好的容灾系统上进行平滑在线扩展。容灾中心华为 OceanStor Dorado 18000 系列高端存储支持虚拟化存储架构,支持异构利旧存储设备,整合存储资源。
  • 支持等保安全的容灾架构,满足行业的合规性和数据安全要求。

第三章 容灾方案 实现效果总结

本次项目建设完成后,依托某部委容灾基础设施架构,通过本地、同城 / 异地数据中心存储系统的架构,构建基于统一存储系统的完整“两地三中心”架构,最终实现数据大集中、电子政务等核心系统的持续化运作,在灾难发生时可以为广大群众、部委各个部门和单位的用户提供持续的业务服务能力。

基于政务行业的华为高端存储容灾解决方案将按照一体化、集约化的原则进行建设,避免了重复投资,较原来的分散建设模式节省了大量资金的投入,如机房建设、存储设备、测试演练服务器等硬件设备均可实现共用,从而将大幅降低成本。

同时也将降低维护成本,运维工作人员可以集中配置,及时响应灾备切换需求,从而建立一支高水平的专业队伍,既能减少维护成本,更能为部门提供安全、可靠的保障。

建成后的应用级灾备平台,由于其地理位置、业务管理的特殊性,一方面可减少灾难造成的间接经济损失,另一方面也可为将来综合利用创造条件。

基于政务行业的华为高端存储容灾解决方案应用级信息系统为本市电子政务信息化系统提供了统一、规范、安全的灾备管理平台,对实现全市统一规划的电子政务全局、促进安全保障体制的全面形成是非常必要的。通过灾备中心的建立,可以节约资金投入,培养业务人才,提升服务水平,将产生良好的社会和经济效益。

# 相关阅读:
政府行业基于华为高端存储容灾解决方案 ——需求分析篇
政府行业基于华为高端存储容灾解决方案——架构设计篇
政府行业基于华为高端存储容灾解决方案——方案实现与效果篇

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

10

添加新评论2 条评论

lengxf2008lengxf2008其它铁岭市社保信息中心
2022-05-25 09:41
很不错的整体解决方案,值得好好学习一下,了解一下方案的实现与效果对于今后的维护(运维)一定有很大帮助。
mirage0019mirage0019数据库管理员住房公积金管理中心
2022-05-23 14:18
不错,整体方案均已经学习了。
Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

作者其他文章

相关文章

相关问题

相关资料

X社区推广