chinesezzqiang
作者chinesezzqiang课题专家组·2021-07-27 16:22
信息技术经理·M

浅谈灾难恢复架构对企业的重要性

字数 4597阅读 1326评论 0赞 2

概述

在大数据、云计算、物联网等新技术的发展下,我们已经从信息时代迈入数字化时代。

信息技术已成为最活跃的生产力要素,促使生产模式发生重大的变革,引发互联网经济蓬勃发展。作为企业数字化转型的基础与支撑,得到了企业高层的高度重视。

随着数字化在各个企业的深耕,服务于大众吃、喝、住、行、用等多个方面,每天源源不断的产生巨大的数据量,为企业的运营提供有力的决策,数据已经成为决定企业命运的核心资产。数据量呈指数级的增长已经成为常态,数据备份和灾难恢复就成为炙手可热的主题,也是信息安全技术领域中的一个重要的研究方向和发展重点。

2020年至今,全球勒索事件、数据泄漏等安全事件层出不穷,呈现逐年上升趋势。据不完全统计,受损失的企业达到数万家,造成的直接经济损失数以亿计。仅2 018年上半年 , 全球每天有超过 2 500万条个人数据遭到入侵或泄露 , 涉及金融 、 医疗 、 制造等多个行业 。直至现在,越来越多的网络安全事件爆发,黑客攻击手法也越来越复杂和多样化。面对如何严峻的形势,我们亟需构建一套属于自己的灾难恢复架构,构建企业最后一道生命线。

什么是灾难恢复?

灾难恢复听起来有点高大上,不好理解,其实它有个最基础的元素,也是管理员定期都会做的,就是数据备份。我们做数据备份的目的就是防止系统出现操作失误或者系统故障导致数据丢失时候,可以迅速的恢复数据,恢复生产。而灾难恢复要稍微复杂一些,除了考虑数据本身,还要考虑硬件、软件和应用自身,是涵盖面更广的业务连续性规划的一部分,其核心是对企业的灾难性风险做评估、防范,特别是对关键性业务数据、流程予以及时记录、贝恩和保护。翻译成大白话就是灾难发生后,可以迅速将生产平台恢复到正常运营的能力。

灾难恢复的重要性?

灾难恢复的重要性不言而喻 ,为什么称它为企业经营的最后一根稻草,绝不是危言耸听。

给大家简述一个现实的例子,说明一下灾难恢复的重要性。

前面已经介绍过了 , 目前的勒索病毒已经瞄准金融业 、 制造业 及医疗等重要行业。我的一个朋友是某零部件产品制造企业的安全负责人,学历高、技术牛、经验丰富,典型的I T界 “高、富、帅”。但是他在2 018年 经历了人生第一个重大安全事件,让他终生难忘,甚至回想起来还冒一身冷汗。

当天他正在开会,突然电话响起,对方告知公司的一个销售系统宕机,服务起不来,当时没有意识到时大事,只是说会后过去支持。到现场才发现,所有销售的数据库被加密,只留下txt勒索文件,告知如何交付赎金进行解密,此时他才意识到大事不妙。经过全系统排查,共发现中毒系统3 0多套 , 整个生产瞬间停滞 。

幸亏大多数系统都进行了数据备份 , 除个别系统需要手动录单外 , 其余的系统均已通过备份系统恢复 , 将损失降低到最小 。

天有不测风云,人有旦夕祸福, 通过这个 血淋淋的 案例 , 大家应该意识到灾难恢复( 不紧急是数据备份 )对 I T人员的重要性和企业最后一根救命稻草的含义了 。

灾难恢复要点

任何系统在设计和建设阶段都会有相关的指标和规格约束,确保系统的完整性、稳定性和可用性。

灾难恢复资源要素

根据大多数的专家经验,总结了一些 信息系统灾难恢复管理规范中,关于灾难恢复资源的描述,仅供参考, 灾备负责人可以根据企业实际需求进行斟酌:

l 备用的基础设施:

Ø 主用基础设施以外的备用基础设施选址尤为重要,无论从距离上、备份线路上还是政策上都是考虑的重点;

Ø 基础设施建设符合国家机房建设标准,具体级别参考主机房;

Ø 备用基础设施具备完善的工作辅助设施和生活设施。

l 数据备份系统:

Ø 根据业务系统特性,提前定义数据备份的范围和频率;

Ø 定期整体RPO和R TO 指标,分解到不同的业务系统;

Ø 充分考虑数据备份系统与现有生产系统的兼容性;

Ø 选择成熟稳定的数据备份系统,同时一定要考虑后期服务支持。

l 网络系统:

Ø 备用基础设施 网络通信 系统的选择,建议与主用基础设施保持一致;

Ø 备用通信线路 要冗余,避免单点故障 ;

Ø 要定期对 备用通信线路的使用情况 进行监控 。

l 灾难恢复预案

Ø 要提前做好 灾难恢复预案:

Ø 根据业务实际需求提出备份的管理要求;

Ø 制定备份恢复流程;

Ø 定期进行培训和演练。

l 运维管理

Ø 定义 运维管理组织架构;

Ø 制定运 维管理制度;

Ø 制定相关的考核指标。

l 技术支持能力

Ø 培养自身的技术支持能力;

Ø 引入专业的灾备团队进行支持;

Ø 软件、硬件和网络等方面的技术支持要求。

灾难恢复能力等级

灾难恢复根据投资和业务需求的不同,会采用不通的技术实现,自然就会有不同的灾难恢复能力之分。以下结合自身总结的一些灾难恢复架构方案经验对其进行等级划分, 仅供参考 。

等级等级描述内容描述特点
基础基础级备份,仅仅满足一定备份周期内的数据不丢。l 每周至少进行一次数据备份;l 备份介质本地存储;l 无专业备份系统支持;l 周期外数据完整性无保障。l 定期备份;l 本地存储;l 不具备统一管理能力。
中级中等级备份,仅仅满足一定备份周期内的数据不丢。并可以实现外部介质存储。l 每周至少进行一次数据备份;l 备份介质采用外部存储;l 无专业备份系统支持;l 周期外数据完整性无保障。l 定期备份;l 异地存储;l 不具备统一管理能力。
高级高级别备份,可以满足大多数企业对数据安全的要求,满足备份数据不丢。l 每周至少进行一次全量数据备份,每天进行增量备份;l 备份介质支持外部存储;l 具备专业备份系统;l 数据完整性有保障;l 实现异步/同步数据复制。l 定期备份;l 异地存储;l 业务性能由同步机制决定;l 具备统一管理能力。
企业级备份应用级灾备,可以满足大企业对业务和应用级双活的要求,实现真正意义的灾备切换。l 每周至少进行一次全量数据备份,每天进行增量备份;l 备份介质支持外部存储;l 具备专业备份系统;l 数据完整性有保障;l 多数据中心间进行应用级切换,不影响业务l 实现异步/同步数据复制。l 定期备份;l 异地存储;l 业务性能由同步机制决定;l 应用切换零宕机;l 具备统一管理能力。

灾难恢复关键指标

容灾恢复 的关键指标是S LA 的前提条件 , 不同企业不同要求,个人经验仅供参考:

指标描述
RTO-Recovery Time Objective:恢复时间目标系统宕机导致业务停顿开始,到系统恢复至可支持业务运营,两点间的时间段。即可容许服务中断的时间长度。
RPO(Recovery Point Objective):数据恢复点目标从系统和数据而言,要实现能够恢复到可以支持业务运营,使系统及生产数据恢复到何种更新程度。即损失的数据量,即恢复的数据所对应的时间点

灾难恢复架构

本例以曾经做过的灾备案例为范本进行说明,利用两地数据中心进行数据级别的灾备。

灾难恢复的原则

为保证灾难恢复架构涉及更符合业务需求,更贴合企业实际情况,应遵守以下原则:

注意事项原则
对业务运营的影响应尽量避免或降低对正常业务系统正常运行的影响
关键的业务周期测试活动应安排在非业务高峰期,以避免或降低对业务运营的风险
分离关键的组件如果测试对特定业务的中断无法避免,应当在一个可接受的时间段内,将所涉及的服务组件与会受影响的业务进行隔离,进行测试
保证足够的人员支持生产系统确保有足够的资源维护和支持生产系统灾备活动
恢复流程准备就绪管理流程开发完成,编写相关的灾难恢复方案与恢复步骤,并进过适当的测试
对真实场景的模拟程度测试的场景设计应当最大程度的反应最坏的灾难情况
容灾演练演练过程中应当尽可能的不要降低生产系统的容灾保护程序;如果无法避免,应考虑采用一些措施保证演练期间生产系统的容灾保护备份
应用系统的分组具有高度依赖性和多个应用,应当尽可能安排在同一次演练中

常用灾难恢复方式分享

在工业互联网的大背景下 , 制造行业 不管是大企业还是小企业在日常运营中都需要服务器、 网络 等基础架构来部署业务,保持业务的稳定持续运行。制定和执行一个可用的灾难恢复方案 就显得 至关重要。一旦发生不可预知的灾难, 尤其 数据丢失造成的损失是无法计算的。

随着灾备技术的发展,各种灾备方式突显,如本地灾备、异地灾备、云灾备、混合灾备等等方式。根据不同的灾备需求和业务重要程度,所采用的灾备技术也是不同的。从开源的到商用的,从新兴的到成熟的,各有千秋,各有不同。以下举三个常用灾备方式:

l 本地:

本地备份按照上文所说的要素和等级来看,投资最小、效果较差,但是适应小型企业和对数据完整性要求不高的场景。可以通过软件自带的数据复制功能、底层存储的remote copy功能进行本地存储间备份。数据可以快速恢复,但是备份周期内的数据无法恢复,有丢失数据风险。同时如果本地基础设施被破坏,已造成全部数据丢失或失效。

l 两地三中心:

我们知道金融行业的数据几乎没有丢失的情况,那是因为他们在灾备方案上煞费苦心。为了确保数据中心的可靠性,基本都会在不同区域各建一个数据中心用来放置服务器和存储数据,实现主备分离。正常情况下主中心工作,另外两个作为灾备中心,三个数据中心的数据实时同步更新。确保所有服务器不会放在同一个地方,就算战争、地震等损毁了两个中心,也不会影响业务的正常办理。万一发生极端情况三个中心全部遭到破坏,还有离线备份的数据,数据安全性得到保障。

l 混合云:

随着云计算的发展,混合云架构越来越被企业所重视。利用混合云架构实现云灾备是个不错的选择。云灾备作为灾备领域的一种新的灾备方式,正在被更多的企业所接受。通过引入专业的云灾备服务商,按需付费使用灾备服务,实现线上线下相结合。可以利用服务提供商的优势技术资源、丰富的灾备项目经验和成熟的运维管理流程,快速实现业务的灾备目标,降低灾备系统的运维成本和灾备系统的总体拥有成本。

灾难恢复的思考

运维一个完整的灾备系统离不开技术与管理,正所谓“三分技术,七分管理”。要保障灾备系统的稳定性和数据的安全性,除了有必要的技术手段支持以外,还要考虑组织和管理的因素,也就是人、流程与制度的因素。

组建合理的灾备组织架构

灾备作为企业的最后一道防火墙一直以来都是I T 领导最重视的领域,会在企业内设立专门的灾备小组或者委员会,制定集团整体灾备系统的解决方案,并负责灾备工作的指导与推广。

同时在企业内会设立灾备架构师,对集团灾备工作进行具体的规划与执行,确保企业核心数据的可用性、完整性和可靠性。

流程化管控

企业的 灾备系统按照规划建设完成,这只是数据安全保障的第一步,或者说是前提 。之后大部分的工作都是在系统的运营中。结合P DCA , 通过迭代更新的方法论 , 对 灾难恢复 策略和运营进行持续化改进 ,增强企业数据灾备及应用级灾备的整体能力。

正所谓 “ 制度管人 , 流程管事 ”。 基于流程化管理 ,灾备团队可以根据不同的业务需求、备份场景进行快速响应和精确处理,为企业核心数据安全提供保障。

结束语

在灾难备份系统建设中,数据备份是关键,也是基础,做好灾难备份建设,通过有效的灾难恢复机制,以确保企业业务连续性,减少因为数据丢失等给企业带来的损失。 本文简述了灾备的重要性,并未深度解析灾备的各种技术和实现,在后续的T WT 文章中将陆续更新。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

2

添加新评论0 条评论

Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

作者其他文章

相关文章

相关问题

相关资料

X社区推广