jxfeng
作者jxfeng2022-04-27 10:01
系统架构师, 万达信息集团

政府行业基于华为高端存储容灾解决方案——架构设计篇

字数 6195阅读 632评论 2赞 4

摘要:近几年来,由于自然灾害以及人为误操作等因素给电子政务等系统造成的损失除了导致业务无法正常进行外,还给国家经济和百姓生活带来损失,容灾系统建设已经成为了必选项。

本文依据 《信息安全技术信息系统灾难恢复规范》等国家相关标准对政务 系统的业务风险、影响和痛点进行分析,给出了容灾系统建设的必要性和容灾建设级别。不同的级别对应的策略也不尽相同,需要设计满足 RPO 和 RTO 要求的容灾系统架构和技术实现方案。通过对不同的技术路线进行比选,最终确定了基于华为 OceanStor Dorado 18000 系列高端存储阵列的容灾解决方案,实现了政务系统的持续化运作,在灾难发生时仍然可以提供政务服务。

全文共分为三个部分:需求分析篇、架构设计篇、方案实现与效果篇;本文为第二部分架构设计篇。

第一章 容灾架构设计要点

容灾架构的设计主要内容是对灾难恢复策略的制定,需要依据《信息系统灾难恢复规范》, 根据灾难恢复需求、技术手段的可行性、资源获取方式确定灾难恢复策略和方案。****

**1、需要选择合适的灾备等级时,但是同时也需要考虑投资回报率。

对于本期项目而言,某部委的核心电子政务系统对于政府业务的正常运行至关重要,一旦数据大量丢失或业务长时间中断,造成的影响是无可估量的。对于这些核心业务系统,往往选择等级五或等级六的应用级灾备,虽然投资较大,但是与风险造成的影响比较起来是相称的。

而对于一般业务系统,发生灾难所带来的损失没有核心业务系统影响大,因此完全没有必要一味追求高的灾备建设等级,而是可以结合自身条件建设不同容灾级别。

**2、各部门业务单位中的不同业务系统,可采用不同的灾难恢复策略。

核心业务的灾备等级选择了等级五或等级六,非核心业务系统可以采用不同的级别。风险给不同类型的业务所带来的损失是不同的,因此不能采用一刀切的方式进行灾备系统建设,而是需要细致分析业务单位信息系统的重要程度,有效区分核心业务和非核心业务,并平衡业务系统的实际需求和总体成本的关系,不具体灾备条件的业务系统视条件成熟再逐步考虑。因此,各部门单位在进行灾备系统建设时,需要根据业务系统重要性的不同,采用不同的灾备等级。在进行灾备规划时,单靠一种方案或一种技术是行不通的,为了实现多种灾备等级,需要有一个完整的灾备技术体系作支撑。

**3、容灾技术架构选择要适合现阶段的基础设施环境,并且考虑未来的技术路线和发展。

灾备的关注点在于数据,即灾难发生后可以确保用户原有的数据不会丢失或者遭到破坏。较低等级的灾备可通过备份软件实现数据的异地存放,而较高级的灾备则依靠基于网络的数据复制工具,实现同城 / 异地数据中心与生产数据中心之间的同步的数据传输,例如采用基于高端磁盘存储的同步 / 异步数据复制功能。

在灾备建设中,是选择数据级容灾还是应用级容灾需要从灾备的目标,投入产出比等多个角度进行分析。

第二章 灾难恢复需求的确定

2.1 灾难恢复级别

灾难恢复等级的确定是信息系统灾备建设的重要考虑因素。《规范》将灾难恢复能力划分为 6 个级别:

  • 等级一:基本支持。要求数据备份系统能够保证每周至少进行一次数据备份,备份介质能够提供场外存放。对于备用数据处理系统和备用网络系统,没有具体要求。

  • 等级二:备用场地支持。在满足等级一的条件基础上,要求配备灾难恢复所需的部分数据处理设备,或灾难发生后能在预定时间内调配所需的数据处理设备到备用场地;要求配备部分通信线路和相应的网络设备,或灾难发生后能在预定时间内调配所需的通信线路和网络设备到备用场地。

  • 等级三:电子传输和设备支持。要求每天至少进行一次完全数据备份,备份介质场外存放,同时每天多次利用通信网络将关键数据定时批量传送至备用场地。配备灾难恢复所需的部分数据处理设备、通信线路和相应的网络设备。

  • 等级四:电子传输及完整设备支持。在等级三的基础上,要求配置灾难恢复所需的所有数据处理设备、通信线路和相应的网络设备,并且处于就绪或运行状态。

  • 等级五:实时数据传输及完整设备支持。除要求每天至少进行一次完全数据备份,备份介质场外存放外,还要求采用远程数据复制技术,利用通信网络将关键数据实时复制到备用场地。

  • 等级六:数据零丢失和远程集群支持。要求实现远程实时备份,数据零丢失;备用数据处理系统具备与生产数据处理系统一致的处理能力,应用软件是 “ 集群的 ” ,可实时切换。

2.2 RTO 和 RPO 目标

信息系统灾难恢复能力等级与恢复时间目标( RTO )和恢复点目标( RPO )具有一定的对应关系,各行业可根据其行业特点及信息技术的应用情况制定相应的灾备等级要求和指标体系。在《规范》中,也给出了某个行业灾难恢复能力等级与 RTO 、 RPO 之间关系的示例,可作为参考:

需要指出的是,在灾备等级六中, RTO 是 “ 数分钟 ” 而不是 “0” 。在实际的灾备建设中,部分的用户对此存在误区,认为等级六(或者说应用级灾备)就一定要达到 RTO 为 0 ,即应用自动切换。从技术层面而言,目前的远程集群技术能够达到应用自动切换的目标,但是这种方式的弊端在于,多种潜在因素(例如集群服务器心跳线中断、网络短时间中断、应用服务器响应不及时等)容易导致在生产中心实际运行正常情况下进行误切换,运行风险高。我们知道,灾备中心的应用接管是一个管理和决策的过程,需要人为参与,无法完全交给机器和软件来替代完成的。一旦灾难发生,在人为决策后,将灾备中心服务器启动或恢复对外访问,通过几分钟实现业务的快速切换,既能够达到高等级的灾备建设目标,又能避免误切换的巨大风险。

通过对《规范》中该行业灾备建设 RTO 建议的研究,我们可以看到选择等级六时, “ 数分钟 ” 的切换时间目标是非常科学和理性的。

2.3 灾难恢复资源要素

在明确了灾备建设中灾难恢复能力等级和 RTO 、 RPO 目标之后,另一个重要问题是在具体建设中应该考虑哪些资源要素。我们把《规范》中灾备建设内容的描述称之为灾备建设的七要素:

通过对《规范》所定义的七要素的细致分析,我们不难发现,灾备建设实际可以归纳为三个步骤:

  • 第一步是建设灾备中心,主要考虑要素一即基础设施建设,包括灾备中心的选址与建设,备用机房、工作辅助设施和生活设施的建造等;

  • 第二步是在灾备中心建设完成后,重点考虑如何将生产中心的数据同步到灾备中心,具体的讲就是考虑要素二、三和四,即数据备份系统、备用数据处理系统和备用网络系统;

  • 第三步,就是日常的运维和管理,即要素五至七。

    这三个步骤之中,基础设施建设、日常的运维管理属于灾备的基础支撑系统,业界有很多成熟的标准和体系可以借鉴。从技术的角度来说,最复杂的内容就是两个数据中心的同步,面临了很多技术上的选择难题,这也是传统灾备系统建设复杂性的根源所在,需要重点考虑规划。

《规范》中对七要素的详细定义,还可以引导灾备建设单位全面考虑灾难恢复建设的各个相关方面,防止片面强调个别要素而忽略整体。例如,大部分单位在进行灾备建设时,重 “ 硬 ” 而轻 “ 软 ” ,对于备用基础设施、数据备份系统、备用数据处理系统和备用网络系统充分重视和关注,而对于日常运维、灾难演练等有所忽略。灾备系统建设完成后,几年都没有进行演练,灾备的建设目标是否达到、灾难应急流程是否完善、数据恢复后是否可用等等都无法确定,花了巨资建设的灾备系统的效果自然也大打折扣。

由此可见,灾难恢复能力等级越高,对于信息系统的保护效果越好,但同时成本也会急剧上升。因此,目前我们建议政府行业数据级灾备体系应至少达到了等级三的国家标准即,每天至少进行一次完全数据备份,备份介质场外存放,同时每天多次利用政务外网将关键数据定时批量传送至灾备中心。同时配备灾难恢复验证时所需的部分数据处理设备、通信线路和相应的网络设备。

目前各市级委办单位在进行灾备系统规划建设时,由于场地、资金、技术能力等因素,无法统一有效的建立完整的应用级灾备体系,往往顾此失彼。因此根据各委办单位业务系统重要性的不同,采用不同的灾备等级、以及选择合适的灾备技术成为了迫在眉睫需要解决的问题。这也说明了在进行灾备规划时,单靠一种方案或一种技术是行不通的,为了实现多种灾备等级,需要有一个统一完整的灾备技术体系作支撑。

第三章 灾难恢复策略的制定

3.1 策略制定分析

依据《信息系统灾难恢复规范》,灾难恢复能力等级越高,对于信息系统的保护效果越好,但同时成本也会急剧上升。因此,灾备建设中,如何确定业务系统的合理的灾备恢复等级是一大难题。在《信息系统灾难恢复规范》中也指出了,可以根据成本风险平衡原则(即灾难恢复资源的成本与风险可能造成的损失之间取得平衡)来确定。

  • 在本项目中针对业务连续要求较高的核心电子政务系统将采用应用级容灾,容灾等级为 5 级或 6 级。

  • 应用级容灾主要焦点在于客户的内部业务互相关联性,因此应该是对一个业务群体进行容灾部署,而不单单是对一个应用系统。

  • 为了实现应用级容灾,需要建设新的数据存储和数据复制体系,所有业务系统数据复制方案要求采用统一机制,部署新的数据存储设备分别放置在本地数据中心和同城 / 异地灾备数据中心

  • 基于成本性能考虑、应用容灾的构建、管理以及便于容灾演练,基于政策和数据安全的考虑,全部的数据以及副本将存储在本地存储设备中,电子政务云平台仅可获取到部分必要的数据。

3.2 策略制定设计

3.2.1 策略制定技术分析

技术分析是灾备恢复策略制定设计的基础,灾备技术与灾备恢复策略匹配程度的高低,决定了容灾系统对数据中心生产环境的数据和应用系统的可替代程度,对于高效实现灾难恢复,提高容灾系统可用性有重要意义。

容灾系统技术建设是一个整体,其涉及到各个层面,如下图:

从容灾涉及的层次来看,主备数据中心的容灾技术主要分为 5 个层次,分别为备用网络系统、数据存储系统、卷管理系统、数据库系统和应用系统,主要技术分析如下:

  • 备用网络系统:通过网络多链路连接、以及动态路由协议实现容灾快速切换;

  • 数据存储系统:通过构建两个独立的光纤存储系统、数据同步复制和动态多路径软件,实现数据零丢失;

  • 卷管理系统:在主备数据中心,通过卷管理软件保证数据的一致性和完整性。卷管理软件根据容灾技术策略的不同,可以由基于主机的卷管理软件或基于存储的卷管理软件实现。

  • 数据库系统:通过保障主备数据中心的数据库一致性和完整性实现容灾。

  • 应用系统:通过虚拟化、负载均衡等设备对应用系统实现热切换,实现应用系统在主备数据中心服务器的应用级容灾实现;

根据以上对容灾 5 个层次的技术分析,卷管理系统和数据库系统依赖容灾复制技术的选择,如果选择基于存储系统的容灾方案,那么就不需要考虑这两种技术方案的实现。应用系统的容灾切换主要依赖上层应用的具体实现方案,所以本期容灾项目建设的难点主要集中在备用网络系统和数据存储系统的技术选择上,下面将对其进行深入探讨。

3.2.2 备用网络系统

本地数据中心和同城 / 异地灾备中心之间在网络上形成一个整体,所有的业务系统均可同时在多个数据中心运行,为业务提供服务。

同城灾备中心通常采用光纤链路进行连接,异地灾备中心由于距离较远,可以采用 IP 网络,采用 ATM 或 E1 、 E3 线路。当其中一个数据中心的业务系统出现故障时,由另一个数据中心的业务系统持续提供服务。

数据中心之间具体的带宽要根据业务量峰值、距离、应用系统高峰时的写 I/O 的数量、写 I/O 块的大小、应用系统所能承受的响应时间的延迟、生产与备份中心之间的距离来计算。具体要求如下:

城域网要求:(同步远程复制) 容灾距离: <200km ;传输延迟: <1ms (单向)。

广域网要求:(异步远程复制) 容灾距离:无限制;传输延迟: <50ms (单向)。

在本项目中,同城数据中心相距 10 公里左右,需要实现存储双活和业务系统快速切换,对通讯线路的带宽和可靠性要求比较高,采用了 4 台华为 DWDM 波分设备,对主链路对应的关键系统和应用互联提供冗余备份。整个网络主要包含业务专网、公共服务区网及管理网络建设。而异地灾备中心之间则采用了 622M SDH 线路。

3.2.3 数据存储系统

(一)数据传输的技术选择

数据备份传输的主要方式有异步复制、同步复制。数据备份传输方式的选择主要取决于灾备需求分析中业务系统对 RPO 的要求。


同城数据中心之间相距较近。根据项目需求,要求 RPO 较高,数据丢失量要求为 0 ,所以建议采用同步数据传输模式,但是必须要求裸光纤链路才不会对数据读写产生影响。

异地灾备中心机房部署距离较远,由于对 RPO 要求较低,要求为分钟级,所以建议采用异步数据传输模式,数据传输链路采用广域网。

(二)数据复制的技术选择

目前数据复制技术主要有两种实现模式:基于主机 / 数据库代理模式和基于存储复制模式。这两种模式的选择主要取决于灾备恢复需求与可用于灾备建设的资源投入。

结合某部委的信息化现状,各部门单位主机系统、应用软件和存储设备异构环境复杂,需要根据实际情况选用合适的数据复制技术。在数据复制的技术选择上要求支持异构环境,满足各部门单位 RPO 时间要求,综合考虑投资建设性价比。主要对比如下:

1、主机 / 数据库代理模式

  • 在主机上安全备份客户端,基于文件和数据库日志文件的数据复制,仅能提供有限的数据的保护

  • 占用主机资源,影响生产系统性能

  • 受到操作系统、数据库、存储系统兼容性限制

  • 灾难发生后回切,需要一系列人工操作, RTO 小时级

  • 一般采用异步数据复制

2、存储复制模式

  • 基于同构存储间数据复制,如果使用存储虚拟化卷管理设备,可以实现异构存储间数据复制

  • 逻辑卷实时数据镜像,不占用主机资源

  • 覆盖所有数据对象

  • 高效复制性能,低实施和维护成本

  • 双向复制,可实现数据级、应用级容灾切换与回切

主要对比说明如下:

在本项目中,根据实际政务系统需求,为了避免部署多个主机 / 数据库代理系统,实现统一的数据复制和备份,将采用基于高端磁盘存储的数据复制模式。

第四章 容灾架构设计总结

容灾架构的设计主要依据需求分析的结果进行具体的容灾架构设计工作。

依据《信息系统灾难恢复规范》,我 根据某部委各部门单位的政务系统部署平台的情况、应用之间的数据依赖关系、应用正常运行需要数据量、应用正常启动和异常启动需要的时间等关键因素,确定了各个电子政务系统所需要实现的容灾恢复等级。

在确保容灾系统建设满足现有数据中心技术架构的前提下,又通过对多种不同的数据复制方案和技术路线进行了比较,确定了本期项目的容灾技术架构和路线,明确数据复制采用的技术手段和方案,确定容灾恢复所需要的软硬件设备类型和数量,为最终完成容灾系统建设提供了技术决策。

相关阅读:

政府行业基于华为高端存储容灾解决方案 ——需求分析篇
政府行业基于华为高端存储容灾解决方案——架构设计篇
政府行业基于华为高端存储容灾解决方案——方案实现与效果篇

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

4

添加新评论2 条评论

lengxf2008lengxf2008其它, 铁岭市社保信息中心
11小时前
感谢分享,文章就让我们了解具体的方案设计原则,数据复制技术主要有两种实现模式,(基于主机 / 数据库代理模式和基于存储复制模式)文中以这两块选择对比,对于我们后续在数据复制的技术选择上可以是很好的参考。
mirage0019mirage0019数据库管理员, 住房公积金管理中心
2天前
谢谢分享,这篇文章就可以让我们了解具体的方案设计,数据复制技术主要有两种实现模式:基于主机 / 数据库代理模式和基于存储复制模式。文中这两块选择对比,我们后续在数据复制的技术选择上可以参考文中对比思路。
Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

NAS存储选型优先顺序调研

发表您的选型观点,参与即得50金币。