hunter202
作者hunter202·2016-11-16 11:58
系统架构师·capinfo

如何建造适合自己的容灾备份系统

字数 3713阅读 4842评论 0赞 1

随着企业IT信息化建设部快速发展,容灾备份系统成为数据中心建设的焦点话题,特别是在2001年的“9.11”事件之后,很多机构单位的领导对容灾系统和数据安全的重视程度甚至不亚于自己头上的乌纱帽。在此,基于我们实施过的容灾备份系统项目,我和大家探讨一下企业如何建造适合自己的容灾系统及相关的容灾技术。

很多人会认为“容灾备份系统”是早些年的概念,现在已经过时了,如今“双活数据中心”才是建设目标。那我们就从时下最热门的“双活数据中心”说起。

一、想建“双活”,请先把“灾备”做好

双活数据中心虽然热门,但扪心自问,我们有谁真正实施过或见过“双活数据中心”?据我所知,除了VISA和Master这两家信用卡国际组织的结算系统,真正实施了“双活数据中心”的案例实为罕见。而这两家组织之所以能够创建“双活数据中心”,个人认为原因有两点:一是两家组织的结算业务在全球占据重要地位,这要求它们的结算系统不允许发生任何的业务中断和数据丢失现象;另外最重要的一点,就是两家组织都有超级强大且雄厚的资金支持。

众所周知,所谓“双活数据中心”,区别于“一个数据中心、一个灾备中心”的模式,是指两个数据中心同时处于运行状态,所以称之为“双活”,且两个中心互为备份。其基本的要求是在灾难发生时对生产业务毫不影响,既不会导致业务中断,也不会造成数据丢失;也就意味着容灾系统设计的两个关键指标:系统复原时间指标RTO、允许丢失数据量指标RPO均为“0”。

这就要求在数据中心的各个层面都要实现“双活”设计,包括存储层面、系统层面、数据库层面、应用层面、网络层面、人员的配备层面;每个层面设计都涉及到相关的技术及流程:如存储数据复制技术、服务器操作系统镜像技术、集群技术、数据库高可用性设计、应用系统高可用性设计、网络系统高可用性设计、同步容灾技术、异步容灾技术,以及相应的管理流程和意外事件发生等详细的规章制度、人员配备、行政保障手段等。构建这样的“双活数据中心”需要巨大的投资,导致大多企业没有足够实力会去实现这个系统。

相比之下,建造一个容灾备份系统就较为简单。同城或异地容灾备份系统一般采用“一主一备”模式。基于当前成熟的同步或异步容灾复制技术,当数据中心发生灾难时,灾备中心系统会在小时甚至分钟级恢复,数据接近于“0”丢失。所以个人认为:如果想要实现“双活数据中心”,请先把自己的容灾备份系统做好。

二、容灾系统案例分享

我国医疗行业有这样一个关乎民生的信息系统。系统涉及2000多万人,2000多家机构,每天在线计算的数据量达到T级,数据安全的重要性可想而知。系统必须具备7*24的连续高可用性和数据零丢失的高可靠性。

对于这样一个系统,我们该如何建造它的容灾备份系统?如何定义它的容灾级别?如何定义系统恢复时间RTO和允许丢失的数据量RPO指标?应该采用什么容灾方式、借助哪些容灾备份技术?这都需要一个一个去调研论证。

目前全球还没有一个针对容灾备份系统建设的统一标准。我国于2007年开始正式实施首个国内灾难备份与恢复行业标准,对容灾等级按不同行业、不同性质以及灾难可能带来的损失和影响进行标准划定。

定义容灾级别,先要了解容灾级别分类

基于对系统的保护程度来划分,可以将容灾系统分为:数据级容灾、应用级容灾和业务级容灾3类。

数据级容灾——指通过建立异地容灾中心,做数据的远程备份,在灾难发生之后要确保原有的数据不会丢失或者遭到破坏,但在数据级容灾这个级别,发生灾难时,业务应用会被中断。在数据级容灾方式下,所建立的异地容灾中心可以简单地把它理解成一个远程的数据备份中心。数据级容灾的恢复时间比较长,但是相比其他容灾级别来讲它的费用比较低,而且构建实施也相对简单。

应用级容灾——是在数据级容灾的基础之上,在备份站点同样构建相同的业务应用系统,通过同步或异步复制技术,保证关键应用在允许的时间范围内恢复运行,尽可能减少灾难带来的损失,让用户基本感受不到灾难的发生,这样就使系统所提供的服务是完整、可靠和安全的。

业务级容灾——是全业务的灾备,除了必要的IT相关技术,还要求备份全部的基础设施。其中大部分内容为非IT系统(如办公地点、相关工作人员等),当大灾难发生后,原有的办公场所都会受到破坏,除了数据和应用的恢复,更需要一个备份的工作场所和相关的工作人员能够正常的开展业务。

选择合适的技术,先要了解常用的容灾技术

中间件软件数据复制容灾技术——通过对应用程序的修改,利用交易中间件软件,将在线交易同时在运行中心和灾备中心执行;或者通过交易中间件软件将任何主中心的数据改变发送到备份中心,从而保证生产中心和灾备中心的数据一致性。因为传输的数据主要为交易数据,数据量相对较小,所以这种方式的优点在于对网路带宽的要求较低,但缺点是需要大量修改应用。

数据库数据复制功能容灾技术——现有的一些数据库厂家例如Oracle数据库可以提供STANDBY数据库功能,通过通信网络将数据库日志文件传至备份中心存储系统,备份中心的STANDBY数据库从日志文件中重新恢复数据库。这种方法的优点为投资成本小,数据恢复相对磁带较快。但由于该方式是日志文件直接从主数据库同步到备份数据库,导致其不足就是占用主机资源;另外,由于传输的是归档日志,如果系统出现问题,会导致最后一个日志无法完成归档,该日志就无法加载到备份端数据库,结果将会造成该日志数据丢失。

数据库数据复制软件容灾技术——一些EAI厂家的产品可以提供数据库和应用数据的远程复制功能,通过安装在数据库和应用上的agent对数据库数据和应用数据进行监控,如果发生数据的变化就将同步到备用数据库。这种方法的优点是投资成本小,数据恢复相对磁带较快,能够实现灵活的数据复制策略,兼容异构的数据库软件和平台,缺点就是占用主机资源和存储资源。

远程镜像数据复制容灾技术——利用操作系统的镜像工具软件,如HPMirrorDisk/UX和VERITAS Volume Replicator(简称VVR),同时将数据写到本地和远程的数据中心。采用这种方式与应用和存储都无关,可实现异构存储且不需修改应用,缺点是由于传输的数据量较大而致使对通信的质量要求较高。

存储硬件数据复制容灾技术——通过高中端存储阵列容灾,如IBM高端存储DS8000和中高端存储V7000,可以实现主数据中心和备份中心的操作系统、文件系统、数据库的实时拷贝维护。该方式不占用主机CPU、内存、I/O资源,其缺点是生产中心与灾备中心的磁盘阵列必须同构。

了解完基本概念,回归上述案例

首先定义容灾系统级别——对于上述的医疗行业的信息系统,我们将其容灾系统的级别定义为应用级容灾。目的是希望保证其关键应用能够在允许的时间范围内恢复运行,尽可能减少灾难带来的损失。系统恢复时间指标RTO和允许丢失的数据量指标RPO分别达到:RTO=2小时,RPO=0。

然后采用合理容灾技术——我们采用“存储硬件数据复制容灾方式”来实现同城容灾。我们借助目前IBM公司最成熟的高端DS8000存储容灾方案,DS8000存储由 Metro Mirror 软件提供完全的灾难恢复功能。当配置了MM软件的两台DS8000阵列处于异地时,通过光纤通道连接,主存储器可以随时自动将更新数据传至异地备份存储器,以保持两台DS8000阵列数据的完全一致性。整个工作由DS8000阵列本身完成,不占用任何主机资源。当主数据中心由于火灾、断电和宕机等各种意外原因导致整个系统崩溃时(不考虑地震、战争等因素),异地备份系统将完全接管全部工作,在极短时间内,恢复业务。

三、经验总结

适合的才是成功的容灾系统

该系统是一个成功的容灾系统。之所以成功,在于它适合现实及未来需求,主要表现在业务需求、性能需求、成本需求3个方面。

适合业务需求——我们基于业务现实及未来的实际需求出发,考虑到火灾、断电和宕机等因素,没有考虑到震、战争等因素。不是当初规划时没有考虑,而是考虑到当地震或是战争等情况发生时,人们的医疗活动已经处于另一种状态,在那种状态下,人们看病治疗已不再需要保险这种形式。我们全面顾及到必须要考虑的因素,做到有所为有所不为、恰到好处,适合业务自身特点;

适合性能需求——在容灾中心建设过程中,我们更多地是把精力放在了系统的可扩展性、可靠性和投资保护方面,真正打造了一个高性价比、支撑现在同时面向未来的智慧系统。

适合成本需求——该系统的成本只是系统级容灾系统成本的三分之一。完全控制在成本预算范围内。

容灾不能替换备份

容灾系统会完整地把生产系统的任何变化复制到容灾端,包括不想让它复制的工作。比如不小心把系统内的用户信息表删除等误操作。这时就需要从备份系统中恢复被错误删除的信息。因此容灾系统的建设不能替代备份系统的建设。

根据预算选择合适的容灾方案

预算较少的容灾项目,在数据容灾上应尽量采用数据库级和应用级容灾方案,这样才能合理分配投资,降低总体成本,提高投资回报率。

容灾项目是一个长期的系统管理项目

更多的工作在于长期的监控和演习,这样才能保障容灾系统的完整性。监控和演习的对象包括:数据、网络、系统、设备、非数据存储服务器、应用。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

1

添加新评论0 条评论

Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

作者其他文章

相关文章

相关问题

相关资料

X社区推广