Q先生
作者Q先生2020-02-28 21:26
灾备产品负责人, Q单位

备份、容灾、业务连续性,傻傻分不清楚?

字数 2275阅读 1717评论 1赞 9

灾备行业里经常能够听到备份、容灾、灾难恢复、业务连续性等等概念,说的好像都是差不多的事情,它们具体有什么区别?如果你也傻傻分不清楚,就听本文说道说道。

备份(Backup)

备份其实很好理解,就是将你的文件或者数据复制一份到另外一个地方。假设你把C盘的文件复制了一份到D盘,当C盘的文件损坏之后,你就可以将D盘的文件副本再拷贝回来,这个就是恢复(Restore)的过程。

有的时候,你C盘的这个文件要编辑很久,在一周内你每天都复制一份到D盘,以V1、V2、V3... V7 的方式来给文件进行重命名(一种写毕业论文的既视感),由于你坚持不懈的复制,那么当你的文件损坏的时候,你就可以恢复V1~V7之间的任意版本,V1~V7的这些文件就是你备份产生的多个副本了。一般情况下,灾备软件会使用时间来标记你的文件或数据副本。

容灾(Disaster Tolerance)

容灾的概念主要是国内提的比较多,你甚至在维基百科搜不到容灾词条。容灾,其实就是指能够容忍灾难的能力。对于IT系统来讲,要容忍的灾难类型就包括地震、洪水等自然灾害;软硬件故障;网络或病毒攻击;人为蓄意破坏或者误操作等等。容灾能力建设的主要目的,就是在上述灾难发生的时候,能够保证生产业务系统的不间断运行。当然,各种技术方案都有一定的缺陷,要做到百分百的不间断一般是不太现实的,但不遗余力的帮助你的业务系统在更短的时间恢复,丢失的数据更少,这个就是各个灾备产品追求的目标了,这也是业界最关注的RTO和RPO指标。

我们来举个例子,假设你正在奋笔疾书自己的毕业论文。论文放在了学校的云盘上,你在自己的笔记本上每编辑一下,更新的数据都会同步到云盘上。

奈何笔记本已经用了四年,当你毕业论文完成到99%的时候,一阵白烟从键盘冒了出来,它寿终正寝了。这个时候你卧槽了一下,随后还有些庆幸自己没烫着手。你并不担心你的毕业论文丢失了。你不慌不忙的拍拍旁边正在玩游戏的舍友,哥们,借你电脑我用一下。于是你通过舍友的电脑登陆云盘账号,打开自己已经完成了99%的毕业论文,5分钟就最终定稿,安心和舍友开黑去了。感谢舍友!感谢云盘!

在这个过程中,你的电脑损坏就是一个灾难事件,学校的云盘系统就可以认为是一种容灾系统(当然云盘的主要功能不是这个),它可以帮助你在很短的时间内继续你的业务(写毕业论文)。对于一个组织,一家企业来讲,业务系统要复杂的多,如何保证业务系统可以快速拉起而不产生数据丢失,影响生产,就是一个系统又专业的工程了。

容错(Fault Tolerance)

你正和舍友开黑到兴起的时候,一则消息让你身体凉了半截,学校一则公告推送过来:云盘的后端存储有个节点损坏了,将在xxx时间点进行维护。你这回开始担心你的论文在云盘上丢失了,顾不得被舍友骂娘两句,强行退出游戏卖了队友。你赶紧给计算机老师发了条消息,询问云盘后端存储损坏会不会丢失自己的论文。老师为人师表,很热情的告诉你因为云盘后端存储做了3副本的数据冗余,一个节点损坏并不会丢失数据。你将信将疑的又打开舍友的笔记本,登录云盘查看数据,果然数据还在。虚惊一场,凉了半截的身体慢慢又火热起来。

像云盘系统这样能够允许一个存储节点出现故障而不影响云盘使用的能力就是容错。容错是指在软件、硬件发生故障时,保证计算机系统仍然可以工作的能力。一般可以通过硬件冗余、软件内部的错误检查和处理机制等方式来实现。硬件层面的像磁盘RAID、网口聚合等,软件层面的像自动重试、断点续传、服务降级等都属于容错机制。容灾和容错的差异点在于:容错是软硬件本身的机制,它主要解决的是软硬件的稳定性,可靠性的问题;而容灾解决的是灾难发生后(原生产系统出现不可用的状况),如何让生产系统快速恢复,尽量减少影响和损失的问题。

灾难恢复(DR:Disaster Recovery

灾难恢复就比较好理解了,就是指在灾难发生后,将生产系统恢复到正常状态的过程。这里面会涉及到数据的恢复,整个业务系统的重建等等。如果前期灾备系统做的好的话,这个灾难恢复的工作就会比较轻松,可以很快的让业务系统恢复起来,且基本不丢失数据。

对于IT系统来讲,灾难恢复是个系统的工作,需要做详细的规划和严谨的执行。但对于你来讲的话,就是网购一台笔记本;装上操作系统;装上云盘软件;登录并同步自己的毕业论文,你的灾难恢复就做好了。你甚至还发现新电脑流畅了许多,心里美滋滋。

业务连续性管理(BCM:Business Continuity Management)

鉴于你在云盘存储节点损坏的情况下表现出的好奇心,老师对你留下了深刻的印象,并决定在最后一堂计算机课上让你给大家讲解下学校云盘业务的连续性管理是如何运作的。虽然一开始你有点想死,但是既然不能抗拒就只能享受了。于是你花了不少心思向老师了解和学习,这才体会到一个平时看起来不怎么复杂的学校云盘服务,后端需要有那么复杂的技术、流程、规章制度、设备资源等来支撑。心里哇塞一下,甚至有一瞬间感觉找到了自己即将进入社会的价值。

总的来说,业务连续性管理是指企业或组织开展的一项综合管理流程。它涉及到各种灾难场景下对各项业务的影响分析和风险评估,并开发制定出各种相应的灾难恢复计划、方法和流程,并在日常工作中去执行,以减轻灾难可能带来的不利影响。由于这里边的灾难恢复能力一般是由专业的灾备厂商来提供,所以经常可以看到灾备厂商提及业务连续性的概念。

作者简介 :
----   Q先生“ 灾备有道 ” 公众号作者,一个灾备行业混迹多年的技术人。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

9

添加新评论1 条评论

#wlanz_2003系统运维工程师, 银行
2020-10-15 09:06
大理论讲直白也是一种能力。
Ctrl+Enter 发表