jxfeng
作者jxfeng2022-04-27 10:06
系统架构师, 万达信息集团

政府行业基于华为高端存储容灾解决方案 ——需求分析篇

字数 6888阅读 767评论 2赞 6

摘要:

近几年来,由于自然灾害以及人为误操作等因素给电子政务等系统造成的损失除了导致业务无法正常进行外,还给国家经济和百姓生活带来损失,容灾系统建设已经成为了必选项。

本文依据 《信息安全技术信息系统灾难恢复规范》等国家相关标准对政务 系统的业务风险、影响和痛点进行分析,给出了容灾系统建设的必要性和容灾建设级别。不同的级别对应的策略也不尽相同,需要设计满足 RPO 和 RTO 要求的容灾系统架构和技术实现方案。通过对不同的技术路线进行比选,最终确定了基于华为 OceanStor Dorado 18000 系列高端存储阵列的容灾解决方案,实现了政务系统的持续化运作,在灾难发生时仍然可以提供政务服务。

全文共分为三个部分:需求分析篇、架构设计篇、方案实现与效果篇;本文为第一部分需求分析篇。

第一章 前言

政府行业的电子政务等系统建设关系到民生的保障。近几年来,由于自然灾害以及人为误操作等因素给电子政务等系统造成的损失除了导致业务无法正常进行外,还给国家和百姓生活带来损失。大多数政府行业用户已经认识到容灾对于数据保护和实现业务连续性的重要性和必要性,但是由于容灾技术的复杂性以及容灾实施与管理的难度高等因素,存在仅做数据容灾,或者容灾系统建设完成后面临管理复杂和运维难度高等问题。

那么如何才能建立一个架构简单、安全可靠又易于管理的容灾系,保证电子政务等系统的持续运行呢?

在做好本地数据备份的基础上,选择基于高端存储的应用级容灾方案是一个不错的选择。在保证关键业务数据的安全,同时在发生故障时,可以在同城 / 异地的容灾中心迅速启动灾备系统,接管生产中心业务,保证业务的永续运行。

对于关系到民生的关键政务系统应用而言,仅仅建设数据级灾备只是在灾难发生时保证了数据备份存放作用,并不能直接使用继续提供可持续性的服务。因此在数据级灾备的基础上建立应用级灾备体系至关重要,对关键核心应用系统进行复制,在同城 / 异地灾备中心再构建一套应用支撑系统。支撑系统包括数据备份系统、备用数据处理系统、备用网络系统等部分。应用级灾备能提供应用系统接管能力,即在生产中心发生故障的情况下,灾备中心便能够接管应用,从而尽量减少系统停机时间,提高业务连续性。

在应用级灾备系统建设中,应该综合考虑数据与应用系统的重要性、业务关联度、技术成熟度、基础设施条件、成本和管理维护等一系列因素。在应用级灾备系统中,不管是生产中心还是灾备中心,他们之间的业务都是有联系的。比如数据库必须先启动,之后才能启动应用程序,应用服务器接管完成,才能进行网络的切换。只有严格按照应急流程操作,才能确保应用及灾备建立及正常运行。

第二章 项目背景

某部委按照有关要求进行电子政务信息化建设,到目前为止按照整体规划要求,完成了多个电子政务系统的建设, 90% 以上的业务已经全部纳入信息化管理,为某部委的信息化建设提供了强有力的技术支持并做出了巨大的贡献。

由于信息化系统的建设是分块、分批建立起来的,目前仍三个系统中的数据不能共享、大量的相关和交叉业务不能协同处理。系统分别运行,不能实现“统一数据”,也就实现数据的统一共享和使用。

因此,需要将三个系统的数据进行统一整合。整合后的系统将现有系统的数据合为一体,形成全市统一的集中式数据库,真正做到“统一数据”。相关业务和交叉业务协同办理,独立业务分别办理,统一入口、统一出口。在一个数据库中同时记载数据处理过程中的所有信息,在同一个信息源实现“数据共享”。

整合后的数据库将彻底解决在业务处理中相互依存、信息相互借用的问题,保证了数据的唯一性和准确性,把某部委的管理水平提升到一个全新的高度,简化了流程,提高了政府办事效率,真正做到“让数据多跑路群众少跑腿”。实现了 80% 以上业务网上申报,大大减轻和节省了经办人员成本,使之能有更多的时间和精力深入街道、社区进行社会宣传及点对点服务。

第三章 现状和需求分析

3.1 系统现状分析

  • 核心电子政务系统全部在等级保护三级及以上。

  • 全部是面向公众服务、关乎国计民生的重要信息系统。

  • 用户系统平台种类众多,含盖所有主流品牌的操作系统,包括 HPUX 、 IBM AIX 、 SUN SOLARIS 和 Windows Server 平台。

  • 用户应用系统采用的数据库集中在 ORACLE 、 MSSQL 和 IBM DB2 。

  • 用户生产环境内数据存储类型和品牌各不相同,有服务器硬盘存储、 NAS 、 DAS 、 SAN 等;品牌包括 IBM 、 HP 、 EMC 、 HDS 、 SUN 、富士通、华赛等。

  • 数据管理模式不同,有集中存放及分散存放。

  • 各用户备份方式不同,有光盘备份、磁带备份、磁盘备份,备份数据量和存储总量差别较大。

3.2 项目需求分析

某部委目前已有比较完善的数据中心及相关应用,部署了服务器、存储、网络等设备。但是随着本次电子政务系统的建设和多个系统数据的整合,单体系统的数据量急剧增加,数据保护的重要性也随之提高。如何进一步提升电子政务系统的可靠性和降低系统停机时间成为了优先考虑的问题,对于容灾系统建设迫在眉睫,被逐渐提上日程。

在容灾系统建设方案上,由于本期项目整合的政务系统核心数据涉及到大量敏感的公民个人隐私信息,数据需要存储在本地数据中心,需要建设基于本地数据保护的容灾系统。

在容灾系统建设前需要通过风险分析及业务影响分析等手段对业务和数据的风险进行分析,确定容灾系统建设的方向和目标。

容灾系统建设的需求分析主要包含风险分析和业务影响分析。

进行风险分析,识别可能造成业务中断的灾难、具有负面影响的事件等因素,可控的风险与控制范围以外的风险,确定由这些风险可能造成的直接经济损失,确定业务系统的弱点,明确防范控制风险的技术和管理措施:

进行业务影响分析,识别关键业务以及业务的优先级,识别由于业务中断造成的直接和间接后果,确定业务中断的影响程度,确定可以接受的损失范围,关键业务恢复的优先顺序以及恢复时间目标。

3.2.1 风险分析

对于某部委来说,风险分析的范围主要考虑所在地区的交通、电讯、能源及其他关键基础设施遭到严重破坏,或各部门数据中心发生硬件故障、天灾或人祸等灾难后所面对的可能性风险,同时还需要考虑各部分信息系统中断所造成的系统性风险。

根据之前调研的结果,目前某部委信息系统应用中,数据的可靠存放和备份主要存在缺乏针对自然风险 ( 火灾、地震、水灾等 ) 、技术风险 ( 电力、网络和设备故障等等 ) 和人为风险 ( 人为操作失误、系统软件 BUG 、病毒、黑客等 ) 的全面而有效的数据保护措施和恢复手段。

经过风险分析,得出的风险因素如下:

1、自然风险

自然风险包括机房由于电力、雷击或人为原因造成的火灾。由于地面沉降导致暴雨内涝、风暴潮、地震等自然灾害 :

2、技术风险

某部委各部门业务数量众多,机房环境和应用环境非常复杂,随着业务需求的不断变化和数据大集中的建设,对各部门数据中心的应用和管理带来极大地冲击;

数据大集中在带来种种好处的同时,也带来了风险的相对集中,这就对网络和管理提出了更高的要求。早期各级部门的分布式结构,出了问题只会对局部造成影响,范围有限。管理上往往是被动管理模式,只有等到设备出现了问题才去进行紧急处理,这种方式已不适合数据大集中模式。

由于数据的集中处理,一旦数据中心出现电力、网络和设备故障等问题就会在一个很大的范围内产生不利影响。需要各部门采取主动管理的工作方式,未雨绸缪,提前预判、预防,并建立应急体系。一旦出现问题,能在极短时间内恢复系统运行。否则,业务的中断与数据的丢失可能会带来巨大的经济和信誉损失与严重的负面影响。为了预防大集中模式数据的丢失,需要通过数据备份、异地灾备等数据安全手段保护数据的安全。

根据目前某部委的现状,目前数据总量约为 120T ;数据备份技术主要为本地数据备份。现有普通的备份和恢复手段实现不能够满足新的业务需求,需要更安全的和更易于管理的容灾解决方案。

3、人为风险

某部委信息系统软硬件设施型号、版本和品牌数量众多,涵盖的应用及数据的种类也非常多,应用系统平台复杂,操作系统有 Windows 、 Unix 、 Linux 等,数据库有 Oracle 、 DB2 、 SQLSERVER 、 MYSQL 等。

由于设备品牌,操作系统和数据库类型的不同,难免会出现人为操作失误、系统漏洞,病毒攻击和黑客入侵等问题,造成重大故障,影响数据安全。根据各个业务系统不同部署情况对容灾保护的需求也各不相同,其中的数据也都有不同层次的容灾需求。

3.2.2 业务影响分析

业务影响分析主要是对存在风险的业务系统的功能、以及当这些功能一旦失去作用时可能造成的损失和影响进行分析,以确定单位关键业务功能及其相关性,确定支持各种业务功能的资源,明确相关信息的保密性、完整性和可用性要求,确定这些业务系统的恢复需求,为下一阶段制定灾难恢复策略提供基础和依据。

某部委的核心主机设备为高性能四路服务器及 SAN 存储等设备组成,大部分设备使用年限已超五年,老化严重,出现故障的几率非常大。核心数据库存储系统资源的利用率已到达 85 左右 % ,月底月初时数据访问量大,存储资源的访问频率更高,响应时间变长。而且随着使用人群的增加和新业务需求的增长,同时也考虑到未来几年的新业务增长和业务复杂度的增高,现有存储设备已不能完全满足。

目前存储系统为单节点部署,如果一旦宕机,会导致该业务系统提供的社会职能瘫痪,严重时给社稷民生带来灾难性后果,进行容灾建设,对数据进行保护,对业务系统连续性进行保护,是非常必要的。

3.3 痛点分析

在数据保护方面,某部委本地数据中心磁盘阵列采用 SAN 存储架构,通过备份软件实现了本地数据备份。但是本地数据保护只能应对小规模的逻辑错误,而且恢复时间比较长,无法做到实时的应用保护和数据保护。而且一旦本地机房发生火灾、地震等自然灾害,所有数据将全部丢失,严重威胁公民信息安全。

另外,由于多库合一的系统建设,需要容灾系统保持高性能、高可用、资源高度整合和可持续发展。实现关键应用系统的业务连续性,实现核心业务系统应用级容灾的要求,满足未来五年某部委业务的稳定和快速发展。

由于某部委的数据关系到民生数据安全,需要实现“零数据丢失”,确保在灾难发生时数据不会丢失。容灾系统建设后,需要实现同城 / 异地灾备中心容灾系统数据安全,实现业务系统应用快速切换,确保在灾难发生时,容灾中心能够快速接管生产中心应用系统,继续对外进行服务。

第四章 建设内容分析

4.1 指导思想

某部委容灾系统建设应以科学发展为主题,以提升可持续发展能力为目标,以实际需求为导向,以节约资源和保障数据安全为着力点,遵循电子政务业务发展规律,发挥容灾系统的优势,完成合理规划、按需设计、按标建设,逐渐形成技术先进、结构合理、协调发展的容灾数据中心新格局。

4.2 建设原则

项目建设应充分考虑实际需求和技术发展,以实现系统统一管理、高效应用、平滑扩展为目标,以“先进、安全、成熟、开放、经济”为总体设计原则。

(一)先进性原则: 在系统总体方案设计时应优先考虑基于国产品牌产品的先进方案和技术,确保一定时间内不落后。选择实用性强产品,模块化结构设计,既可满足当前的需要又可实现今后系统发展平滑扩展。

(二)安全性原则: 容灾系统数据某部委重要信息系统的最终保障,不但要保证能够 7X24 运行,而且必须有高可用性。在进行系统设计时,充分考虑数据高可靠存储,采用高度可靠的软硬件容错设计,进行有效的安全访问控制,实现故障屏蔽、自动冗余重建等智能化安全可靠措施,提供统一的系统管理和监控平台,进行有效的故障定位、预警。

(三)成熟性原则: 为确保整个系统能够稳定工作,灾备系统平台应使用先进、完善、易于管理和稳定可靠的数据存储系统、网络系统和容灾管理系统。

(四)开放性原则: 系统建设具有开放性的标准体系,提供符合国家灾备建设标准的容灾等级保护系统。

(五)经济性原则: 某部委现有业务系统存储数据量较大,且数据的增长速度较快。因此在建设灾备系统存储架构时,应从长远的角度考虑,建设一个长期的存储架构,除了可以应对存储硬件设备的升级速度外,还必须考虑到对前期存储设备的投资保护,在保证不断提供功能和性能提高的同时,存储架构在较长的时间内能够保持相对稳定。同时充分考虑应用发展需求,实现系统可弹性在线平滑升级,节约和降低系统建设的硬件成本。

4.3 建设依据

近年来,国信办和我市出台的有关信息化发展规划和信息系统建设要求的相关文件多次指出,各地要建立容灾中心,实现数据级容灾备份,有条件的应实现应用级容灾备份。

1 、 2004 年 9 月,国家网络与信息安全协调小组办公室又出台了《关于做好重要信息系统灾难备份工作的通知》(信安通 [2004]11 号文件),通知提出要提高抵御灾难和重大事故的能力,减少灾难打击和重大事故造成的损失、确保重要信息系统的数据安全和作业连续性,避免引起社会重要服务功能的严重中断,保障社会经济的稳定;要加速推进对国计民生有重大影响的机构、行业的灾备建设,要在灾难出现时认真做好应急预案与灾难备份,将重点行业的灾难备份问题提到了更高的层次。

2 、 2005 年 4 月,国信办出台了《关于印发“重要信息系统灾难恢复指南”的通知》(国信办 [2005]8 号文件)。

3 、 2007 年 11 月,国家标准《信息安全技术信息系统灾难恢复规范》正式实施,规范明确了重要信息系统灾难恢复应遵循的基本要求,从原则、技术、规划、管理等层面给予了指导,指明了灾难恢复工作的流程、灾难备份中心的等级划分及灾难恢复预案的制订框架。

4 、《 2006-2020 年国家信息化发展战略》(中办发【 2006 】 11 号)提出“重视灾难备份建设,增强信息基础设施和重要信息系统的抗毁能力和灾难恢复能力”

5 、“等保 2.0 ”《信息安全技术网络安全等级保护基本要求》( GB/T 22239-2019 )》将信息系统的保护级别划分为五级, 1-5 级均要求提供重要数据本地数据备份与恢复功能; 3-5 级要求提供异地实时备份功能,利用通信网络将重要数据实时备份至备份场地,并要求重要数据处理系统热冗余,保证系统的高可用性(即业务连续性要求)。

6 、《关键信息基础设施安全保护条例》( 2021 年 7 月 30 日国务院令第 745 号公布, 2021 年 9 月 1 日起施行)第二条规定:本条例所称关键信息基础设施,是指公共通信和信息服务、能源、交通、水利、金融、公共服务、电子政务、国防科技工业等重要行业和领域的,以及其他一旦遭到破坏、丧失功能或者数据泄露,可能严重危害国家安全、国计民生、公共利益的重要网络设施、信息系统等。《关键信息基础设施安全保护条例》第五条规定:国家对关键信息基础设施实行重点保护,采取措施,监测、防御、处置来源于中华人民共和国境内外的网络安全风险和威胁,保护关键信息基础设施免受攻击、侵入、干扰和破坏,依法惩治危害关键信息基础设施安全的违法犯罪活动。

4.4 建设 内容

本期项目建设的核心内容是构建电子政务系统的同城 / 异地容灾中心,对电子政务等核心系统和数据进行应用级容灾保护,最终构建一个科学合理的同城 / 异地容灾中心。

本次项目建设内容主要分为三个部分,分别是容灾基础设施建设、应用级容灾系统建设和灾难预案与运维体系建设,具体内容如下:

容灾基础设施建设:完成容灾环境存储系统的建设,基础网络环境建设,主机和链路等基础设施的建设;

应用级容灾系统建设:完成关键业务系统应用级容灾建设,通过跨中心的应用系统集群建设,实现零数据丢失,业务中断后能够进行快速切换,保证业务的连续性。

灾难恢复预案与运维体系建设:为确保容灾系统稳定、可靠的运行,达到项目建设预期的效果,需要建立容灾系统配套的灾难恢复预案与运维管理体系。

第五章 建设需求总结

本次项目的建设是规划复杂程度高、建设周期长、运维难度高的一个项目。并且建设过程是一个周而复始和持续改进的过程。依据国家标准《信息安全技术信息系统灾难恢复规范》,建设和管理灾难恢复系统的工作。在项目建设过程中,主要包含以下几个方面的内容:

1、灾难恢复需求的确定:

通过风险分析及业务影响分的结果,确定灾难恢复的目标。

2、灾难恢复策略的制定:

根据灾难恢复需求、技术手段的可行性、资源获取方式确定灾难恢复策略和方案。

3、灾难恢复策略的实现:

根据既定的策略和灾难恢复等级制定具体的技术方案。

相关阅读:

政府行业基于华为高端存储容灾解决方案 ——需求分析篇
政府行业基于华为高端存储容灾解决方案——架构设计篇
政府行业基于华为高端存储容灾解决方案——方案实现与效果篇

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

6

添加新评论2 条评论

lengxf2008lengxf2008其它, 铁岭市社保信息中心
12小时前
感谢分享,政府行业虽然不比金融行业那么IT规模和要求那么严格,再加上政府需要从资金等多方面考虑,但是从技术角度,我们也需要保证系统的持续化运作,在灾难发生时仍然可以提供服务,我们有必要为政府提供一套较为完整的需求分析报告,文中很好的说明了建设容灾的必要性以及建设内容,以及风险预估。很值得我们借鉴和参考。
mirage0019mirage0019数据库管理员, 住房公积金管理中心
2天前
感谢分享,政府行业虽然不比金融行业那么IT规模和要求那么严格,但是也需要保证系统的持续化运作,在灾难发生时仍然可以提供服务。文中很好的说明了建设容灾的必要性以及建设内容,以及风险预估,后续可以提供具体方案以及实现效果就会有更好的可落地性。
Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

NAS存储选型优先顺序调研

发表您的选型观点,参与即得50金币。