摘要:近几年来,由于自然灾害以及人为误操作等因素给电子政务等系统造成的损失除了导致业务无法正常进行外,还给国家经济和百姓生活带来损失,容灾系统建设已经成为了必选项。
本文依据 《信息安全技术信息系统灾难恢复规范》等国家相关标准对政务 系统的业务风险、影响和痛点进行分析,给出了容灾系统建设的必要性和容灾建设级别。不同的级别对应的策略也不尽相同,需要设计满足 RPO 和 RTO 要求的容灾系统架构和技术实现方案。通过对不同的技术路线进行比选,最终确定了基于华为 OceanStor Dorado 18000 系列高端存储阵列的容灾解决方案,实现了政务系统的持续化运作,在灾难发生时仍然可以提供政务服务。
全文共分为三个部分:需求分析篇、架构设计篇、方案实现与效果篇;本文为第二部分架构设计篇。
容灾架构的设计主要内容是对灾难恢复策略的制定,需要依据《信息系统灾难恢复规范》, 根据灾难恢复需求、技术手段的可行性、资源获取方式确定灾难恢复策略和方案。**
**1、需要选择合适的灾备等级时,但是同时也需要考虑投资回报率。
对于本期项目而言,某部委的核心电子政务系统对于政府业务的正常运行至关重要,一旦数据大量丢失或业务长时间中断,造成的影响是无可估量的。对于这些核心业务系统,往往选择等级五或等级六的应用级灾备,虽然投资较大,但是与风险造成的影响比较起来是相称的。
而对于一般业务系统,发生灾难所带来的损失没有核心业务系统影响大,因此完全没有必要一味追求高的灾备建设等级,而是可以结合自身条件建设不同容灾级别。
**2、各部门业务单位中的不同业务系统,可采用不同的灾难恢复策略。
核心业务的灾备等级选择了等级五或等级六,非核心业务系统可以采用不同的级别。风险给不同类型的业务所带来的损失是不同的,因此不能采用一刀切的方式进行灾备系统建设,而是需要细致分析业务单位信息系统的重要程度,有效区分核心业务和非核心业务,并平衡业务系统的实际需求和总体成本的关系,不具体灾备条件的业务系统视条件成熟再逐步考虑。因此,各部门单位在进行灾备系统建设时,需要根据业务系统重要性的不同,采用不同的灾备等级。在进行灾备规划时,单靠一种方案或一种技术是行不通的,为了实现多种灾备等级,需要有一个完整的灾备技术体系作支撑。
**3、容灾技术架构选择要适合现阶段的基础设施环境,并且考虑未来的技术路线和发展。
灾备的关注点在于数据,即灾难发生后可以确保用户原有的数据不会丢失或者遭到破坏。较低等级的灾备可通过备份软件实现数据的异地存放,而较高级的灾备则依靠基于网络的数据复制工具,实现同城 / 异地数据中心与生产数据中心之间的同步的数据传输,例如采用基于高端磁盘存储的同步 / 异步数据复制功能。
在灾备建设中,是选择数据级容灾还是应用级容灾需要从灾备的目标,投入产出比等多个角度进行分析。
灾难恢复等级的确定是信息系统灾备建设的重要考虑因素。《规范》将灾难恢复能力划分为 6 个级别:
信息系统灾难恢复能力等级与恢复时间目标( RTO )和恢复点目标( RPO )具有一定的对应关系,各行业可根据其行业特点及信息技术的应用情况制定相应的灾备等级要求和指标体系。在《规范》中,也给出了某个行业灾难恢复能力等级与 RTO 、 RPO 之间关系的示例,可作为参考:
需要指出的是,在灾备等级六中, RTO 是 “ 数分钟 ” 而不是 “0” 。在实际的灾备建设中,部分的用户对此存在误区,认为等级六(或者说应用级灾备)就一定要达到 RTO 为 0 ,即应用自动切换。从技术层面而言,目前的远程集群技术能够达到应用自动切换的目标,但是这种方式的弊端在于,多种潜在因素(例如集群服务器心跳线中断、网络短时间中断、应用服务器响应不及时等)容易导致在生产中心实际运行正常情况下进行误切换,运行风险高。我们知道,灾备中心的应用接管是一个管理和决策的过程,需要人为参与,无法完全交给机器和软件来替代完成的。一旦灾难发生,在人为决策后,将灾备中心服务器启动或恢复对外访问,通过几分钟实现业务的快速切换,既能够达到高等级的灾备建设目标,又能避免误切换的巨大风险。
通过对《规范》中该行业灾备建设 RTO 建议的研究,我们可以看到选择等级六时, “ 数分钟 ” 的切换时间目标是非常科学和理性的。
在明确了灾备建设中灾难恢复能力等级和 RTO 、 RPO 目标之后,另一个重要问题是在具体建设中应该考虑哪些资源要素。我们把《规范》中灾备建设内容的描述称之为灾备建设的七要素:
通过对《规范》所定义的七要素的细致分析,我们不难发现,灾备建设实际可以归纳为三个步骤:
《规范》中对七要素的详细定义,还可以引导灾备建设单位全面考虑灾难恢复建设的各个相关方面,防止片面强调个别要素而忽略整体。例如,大部分单位在进行灾备建设时,重 “ 硬 ” 而轻 “ 软 ” ,对于备用基础设施、数据备份系统、备用数据处理系统和备用网络系统充分重视和关注,而对于日常运维、灾难演练等有所忽略。灾备系统建设完成后,几年都没有进行演练,灾备的建设目标是否达到、灾难应急流程是否完善、数据恢复后是否可用等等都无法确定,花了巨资建设的灾备系统的效果自然也大打折扣。
由此可见,灾难恢复能力等级越高,对于信息系统的保护效果越好,但同时成本也会急剧上升。因此,目前我们建议政府行业数据级灾备体系应至少达到了等级三的国家标准即,每天至少进行一次完全数据备份,备份介质场外存放,同时每天多次利用政务外网将关键数据定时批量传送至灾备中心。同时配备灾难恢复验证时所需的部分数据处理设备、通信线路和相应的网络设备。
目前各市级委办单位在进行灾备系统规划建设时,由于场地、资金、技术能力等因素,无法统一有效的建立完整的应用级灾备体系,往往顾此失彼。因此根据各委办单位业务系统重要性的不同,采用不同的灾备等级、以及选择合适的灾备技术成为了迫在眉睫需要解决的问题。这也说明了在进行灾备规划时,单靠一种方案或一种技术是行不通的,为了实现多种灾备等级,需要有一个统一完整的灾备技术体系作支撑。
依据《信息系统灾难恢复规范》,灾难恢复能力等级越高,对于信息系统的保护效果越好,但同时成本也会急剧上升。因此,灾备建设中,如何确定业务系统的合理的灾备恢复等级是一大难题。在《信息系统灾难恢复规范》中也指出了,可以根据成本风险平衡原则(即灾难恢复资源的成本与风险可能造成的损失之间取得平衡)来确定。
3.2.1 策略制定技术分析
技术分析是灾备恢复策略制定设计的基础,灾备技术与灾备恢复策略匹配程度的高低,决定了容灾系统对数据中心生产环境的数据和应用系统的可替代程度,对于高效实现灾难恢复,提高容灾系统可用性有重要意义。
容灾系统技术建设是一个整体,其涉及到各个层面,如下图:
从容灾涉及的层次来看,主备数据中心的容灾技术主要分为 5 个层次,分别为备用网络系统、数据存储系统、卷管理系统、数据库系统和应用系统,主要技术分析如下:
根据以上对容灾 5 个层次的技术分析,卷管理系统和数据库系统依赖容灾复制技术的选择,如果选择基于存储系统的容灾方案,那么就不需要考虑这两种技术方案的实现。应用系统的容灾切换主要依赖上层应用的具体实现方案,所以本期容灾项目建设的难点主要集中在备用网络系统和数据存储系统的技术选择上,下面将对其进行深入探讨。
3.2.2 备用网络系统
本地数据中心和同城 / 异地灾备中心之间在网络上形成一个整体,所有的业务系统均可同时在多个数据中心运行,为业务提供服务。
同城灾备中心通常采用光纤链路进行连接,异地灾备中心由于距离较远,可以采用 IP 网络,采用 ATM 或 E1 、 E3 线路。当其中一个数据中心的业务系统出现故障时,由另一个数据中心的业务系统持续提供服务。
数据中心之间具体的带宽要根据业务量峰值、距离、应用系统高峰时的写 I/O 的数量、写 I/O 块的大小、应用系统所能承受的响应时间的延迟、生产与备份中心之间的距离来计算。具体要求如下:
城域网要求:(同步远程复制) 容灾距离: <200km ;传输延迟: <1ms (单向)。
广域网要求:(异步远程复制) 容灾距离:无限制;传输延迟: <50ms (单向)。
在本项目中,同城数据中心相距 10 公里左右,需要实现存储双活和业务系统快速切换,对通讯线路的带宽和可靠性要求比较高,采用了 4 台华为 DWDM 波分设备,对主链路对应的关键系统和应用互联提供冗余备份。整个网络主要包含业务专网、公共服务区网及管理网络建设。而异地灾备中心之间则采用了 622M SDH 线路。
3.2.3 数据存储系统
(一)数据传输的技术选择
数据备份传输的主要方式有异步复制、同步复制。数据备份传输方式的选择主要取决于灾备需求分析中业务系统对 RPO 的要求。
同城数据中心之间相距较近。根据项目需求,要求 RPO 较高,数据丢失量要求为 0 ,所以建议采用同步数据传输模式,但是必须要求裸光纤链路才不会对数据读写产生影响。
异地灾备中心机房部署距离较远,由于对 RPO 要求较低,要求为分钟级,所以建议采用异步数据传输模式,数据传输链路采用广域网。
(二)数据复制的技术选择
目前数据复制技术主要有两种实现模式:基于主机 / 数据库代理模式和基于存储复制模式。这两种模式的选择主要取决于灾备恢复需求与可用于灾备建设的资源投入。
结合某部委的信息化现状,各部门单位主机系统、应用软件和存储设备异构环境复杂,需要根据实际情况选用合适的数据复制技术。在数据复制的技术选择上要求支持异构环境,满足各部门单位 RPO 时间要求,综合考虑投资建设性价比。主要对比如下:
在本项目中,根据实际政务系统需求,为了避免部署多个主机 / 数据库代理系统,实现统一的数据复制和备份,将采用基于高端磁盘存储的数据复制模式。
容灾架构的设计主要依据需求分析的结果进行具体的容灾架构设计工作。
依据《信息系统灾难恢复规范》,我们 根据某部委各部门单位的政务系统部署平台的情况、应用之间的数据依赖关系、应用正常运行需要数据量、应用正常启动和异常启动需要的时间等关键因素,确定了各个电子政务系统所需要实现的容灾恢复等级。
在确保容灾系统建设满足现有数据中心技术架构的前提下,又通过对多种不同的数据复制方案和技术路线进行了比较,确定了本期项目的容灾技术架构和路线,明确数据复制采用的技术手段和方案,确定容灾恢复所需要的软硬件设备类型和数量,为最终完成容灾系统建设提供了技术决策。
政府行业基于华为高端存储容灾解决方案 ——需求分析篇
政府行业基于华为高端存储容灾解决方案——架构设计篇
政府行业基于华为高端存储容灾解决方案——方案实现与效果篇
如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!
赞6
添加新评论2 条评论
2022-05-25 09:27
2022-05-23 14:13