互联网服务杨义先

分享专家评容灾技术发展历史

接下来我想介绍一下灾备技术的历史,分为三个方面来介绍:灾备技术的衍生,灾备技术的提出和灾备技术的发展演化。

那么要说起灾备技术,我们就不得不说,容错计算,因为它们两个其实是有很深的血缘关系。那么容错实际上,我们最早容灾是容错计算中专门针对于灾难事件处理的特殊技术。所以容灾是容错中的一个重要研究方向而已。

到目前为止,容灾所使用的相关的技术、技巧、思路,在很大程度上都还留有容错的烙印。容灾技术实际上就是我们前面说的广义的灾备技术。

因此我们说,灾备技术是从容错计算中衍生出来的。

什么是容错呢?容错就是指存在故障的情况下,计算机系统能够不失效,仍然能够提供系统服务的这么一种特性。

那么容错技术在计算机系统的应用非常广泛,而且很早,早到什么程度呢?早到人类第一台计算机系统,是ENIAC,当时ENIAC当时是由18800个真空管组成的。而那个时候受工艺限制,硬件的故障率是高的,平均每15分钟就会烧掉一个真空管。因此,在这么大一个ENIAC系统中,为了保持系统的可用性,就在系统中大量的采用了基于冗余容错技术,就是很多技术是备份。

因此,没有容错技术也许就不会有人类第一台计算机。

国际上一直对容错也非常重视,比如说IEEE和ACM协会中都有容错专委会,而且还是资格最老的专委会之一。

那么容错计算的结构是怎么回事呢?容错计算它是提高系统可靠性的有效手段,它是怎么回事呢?它通过自动检测、自动甄别、隔离、排除等技术手段,来保证系统完成预期的目标。一般来说,在容错的整个过程是对用户透明,是不需要用户来人工干预。

而这个容错计算的结构,最主要当然是功能子系统,此外还包括其他,比如说故障检测子系统,备份子系统和系统恢复与重构子系统。

那么这张图(图六)就很好的显示了一个典型的容错系统,那么中间是总控系统,周围分别是功能子系统,故障检测子系统,子系统和灾难恢复重构子系统。

那么容错计算中故障的分类:主要分为设计故障、物理故障和接口故障。这张图就显示了系统故障分类及其划分的情况。

容错计算的技术实质是什么呢?用两个字来说那就是冗余。也就是说在正常的系统运行所需的基础上,我们增加一定数量的冗余信息、冗余时间、冗余的系统和冗余的软件。

那么硬件冗余拿来干吗?它主要应对物理故障。软件冗余主要应对设计故障和接口故障。信息冗余主要应对信息的丢失和接口故障。时间冗余主要有于避免系统的服务被中止。容错计算的应用领域非常广泛,包括航空、航天核电站等高科技的应用系统领域,以及银行、证券等关键应用领域,还有包括制造、物流、交通等一些运营商业的团体和政府部门这些关键系统,他们的特点就是要求相关的系统必须每周工作七天,每天工作24小时,不断的运行。

因此,容错计算系统多用于系统可靠度要求很高,高到99.99%以上的应用硬环境。形象的说这些系统工作一年,要求它们的故障时间不超过五分钟。

那么容错计算的一个典型系统由Stratus公司的Stratus系统,它是一个硬件级的容错技术,以为Vos的专有操作系统。还有的Tandem的Nonstop容错机,它包括有服务器、操作系统和数据苦等。这两种容错计算机来说,他们的技术是比较先进,使用效果也比较好,最大的问题在于太贵,普通人用不起。这也是影响这两种系统广泛普及的原因之一。但其他还有设备专用系统很强,系统也复杂,不容易管理、操作。还有仅仅于大型的应用系统。

那么灾备是怎么样被提出来的,它的历史,我们最早可以追溯到上世纪50年代,当时它作为容错技术手段被提出来。

但是一直到上世纪70年代,灾备才作为一个独立的研究方向才得到发展。原因导火线是什么,那是因为当时美国成立了连邦应急管理总署,那么这个总署就明确提出了要建立灾难指挥系统,提出了信息系统安全保障的概念。

一直到1979年有一家公司叫SunGuard公司建立了全世界上第一个灾备中心,从而开创的专业从事信息系统灾备的产业。所以我希望深圳能够抓紧时间发展自己的灾备产业。

灾备的历史发展演化情况,可以概述这么几个,最早的时候,灾备主要是集中在企业的信息化方面,专注于对数据和系统的备份,后来随着信息系统的规模的扩大,又进行了扩展,提出了灾备的恢复计划。也就是说在灾备中,加入了灾难的恢复预案,虽然还没有发生灾难,如果发生灾难,我们怎么来恢复,还有资源需求和灾备中心的管理,形成所谓的生产中心的保障概念。

再后来又把灾难的恢复从专注于系统转向了专注于业务的角度,提出了用业务来衡量一个灾备的目标。

接下来除了信息化的系统以外,灾备系统还增加了信息化的辅助与决策支持,包括业务影响分析,业务恢复预案,策略制定,人员的架构、通信保障和第三方的合作机构等。

特别是911事件以后,灾备又引入了管理方面的一些支持,包括紧急事件的响应,危机公关和供应链危机的管理等等。

那么灾备成功的案例很多,我们只说一个,那么大家在媒体上也可以看到,在“9.11”以后,那个楼里面很多企业都因为数据的丢失而死掉了。比较有典型的有两家银行,一家叫德意志银行,一家叫纽约银行,由于在灾难前德意志银行在远地建立了自己的灾备中心,所以它很快的就恢复的业务。但是与它相应的纽约银行就没有这么幸运,因为它没有建立异地的灾备系统,从而就使得纽约银行因为数据丢失,被迫破产。这件事是坏事,带某种程度上也成了一种好事。从此以后,金融、保险业就非常重视灾难备份系统的建设。

灾备技术的现在分三个方面来阐述:政策引导、市场情况和技术现状。

政策引导在国外美国已经发布了强化金融容灾能力的一个白皮书。这个白皮书规定容灾能力到位的具体时间表,而且美国政府还制定所谓的COOP计划,确定了政府容灾能力的下限,而且明确的对保护重要数据资产提出了要求,那就是启动恢复的时间要小于12小时,维持能力要大于30天。此外,其他国家也启动重新评估银行系统的容灾能力,提出了一些相应的监管的要求和指标,比如说英国的FSA、德国的HKMA和新加坡的MAS。现在发达国家已经有70%的公司开始启动容灾的机制。

那么我们国家这个数很少,这也意味着是一个很大的商机,在国内情况是怎么回事?在国内我们的政府非常重视灾难备份,连续不断发布很多重要的文件,比如说03年8月,中办和国办联合发布了《国家信息化领导小组关于加强信息安全保障工作的意见》。04年9月,国务院信息办公室发布《关于做好重要信息系统灾难备份工作的通知》,05年发布国务院信息化办公室发布《重要信息系统灾难恢复指南》,07年7月国务院信息化办公室《发布信息系统灾难恢复规范》。我们等一会对07年灾难恢复的规范的条例做一些解读。

因此我国政府高度重视灾难恢复工作。灾备市场的市场规模怎么样,应该说很大。在国际上据估计,到2009年的时候,全球IT外包的规模会达到两千多亿美元,其中数据外包的市场规模将达到991亿美元。

灾备是绿叶配红花,这个红花是IT,就是数据。那么国际上灾备市场一直保持着15%左右的年增长。那么灾难的热备份中心它的每年的增长幅度更高达30%。在我们国家根据赛迪的市场调查结果,在05年的时候中国灾备市场规模,仅仅只有三十几亿人民币,到07年的时候,这个市场规模已经达到73亿,08年的时候估计会达到100亿。

灾备市场当前国际的现状。

从82年到98年间,遍布全美的25间灾难备份中心已经成功完成了582种灾难的恢复,平均每年都恢复40宗。那么911事件以后,恐怖事件和人为的破坏,又成了新的灾难因素。所以灾备考虑也要这些因素。国外灾难备份的业务有60%以上集中在金融领域。

国际上最大的灾难备份服务提供商SunGuard,它做了一个调查,发现71%的公司使用了灾难备份中心。那么其中有56%都使用了商业化的灾难备份服务。注意到是商业化的灾难服务。29%是使用自由的灾备中心。我们国家主要是以自由灾难中心为主。15%在商业化灾难备份服务的基础上,同时拥有自己的备份服务。两个都有,既有别人为它提供服务,也有自己的灾备。

灾备市场国内发展情况,应该说国家在宏观指导方面非常重视,针对中国的八大行业的一些关键系统,明确的要求它们要建立灾备系统,但是与此相对应,在微观的执行方面,目前发展还比较缓慢。

从90年代末开始,工商银行、建设银行都纷纷启动数据大批集中工程,并相应地启动了灾备系统的建设。

在2004年的时候,由国务院信息化办公室组织有关专家对我们国家灾难备份进行大量的调查和研究工作,最后得出这么一个结论,也就是说在我们国家除了一些金融机构灾难备份系统已经启动建设外,其他行业的灾难体系基础还非常薄弱,目前中国的灾备行业还处于起步阶段。所以这个是机会,也是挑战。

当然灾备方面国际上有很多巨型的公司,包括SunGuard,包括IBM公司,是全球灾备第二大公司,这是出乎很多人的意料。还有EMC公司,还有富士通公司,等等。在国内的话,灾备比较成功的企业并不多,虽然目前国内很多IT企业对灾备都很热情,那么比较有代表性,还有专门从事灾备公司,比如GDS、万国数据,H3C公司,还有一些兼做灾备的公司,包括浪潮,联想、华为等等。大家知道华为和赛门迪克合资成立一家华赛公司。公司在成都,它就是专门做存储,专门以后盯住灾备市场的发展。

接下来就是介绍一下,灾备技术的未来。那么主要从技术,就是从纯技术方面应该怎么发展和我们国家灾备的发展方向。那么首先灾备是绿叶配红花。我们首先就要看信息系统是怎么变化的?现在我们的信息系统中存储容量是急剧膨胀,每个半年或者一年,企业数据量会成倍增加。数据存储的时间和方式不断在延展,因特网使网络数据能够每天24小时,每周7天,每年 365天始终处于就绪状态,同时可以通过多种渠道和方式实现数据的更新于修改。

数据存储的结构差别非常大,异构性很强。用户对于信息系统的提供的服务要求也是越来越高。目前很多关键业务的应用要求对可用性都要求达到99.99%。

那么信息化发展的趋势也是我们要建设,也是确定今后灾备方向的一个重要因素。现在信息的重要性,已经远远超过了系统设备本身,信息系统的信息量增长非常惊人,信息有效的保存已经成为一个很严峻的问题。

电子政务,电子商务等等数据大集中的模式导致了数据系统的脆弱性在不断的增加。

英特网和安全技术的发展也使得灾备系统不再单纯以来于专有的网络。好,基于刚才在信息系统的发展方向和应用系统发展的一些方向,我们就可以推断出灾备技术的今后的发展方向。应该是这样的。现在的灾备主要是围绕数据存储来考虑的。那么今后将围绕着应用服务来转变。那么现在的灾备主要是考虑存储技术是从集中式,那么今后将向分布式和虚拟化发展。现在的灾备系统主要是专用系统,今后将向综合服务的系统发展。

好,我们来看怎么样来围绕服务,往服务方向是怎么发展的,那么它主要要保证业务连续性,包括数据完整可用系统快速重建,应用能够快速的部署,还又要建设一些新型的容灾体系结构。为什么呢?因为过去传统的简单的备份冗余的一个容灾系统,它的结构已经不适合于现在的复杂的网络环境。过去的面向科学计算的容错技术,对现在面向事物,面向业务的容灾计算,对电子政务、电子商务系统已经不适应了。

那么在存储,未来存储的发展方向上,那么具体来说,应该是存储的虚拟化,那么目标呢?就是要提出存储的利用率。接着是怎么样使得重复数据删除进行压缩,目标就是要提高存储的效率。还有就是分布式的灾备存储技术。它的目标就是利用大量的分布式的、廉价的存储资源来构建一个安全的、海量的灾备存储系统。

还有一种是基于信息的灾备存储技术,它的目标是将海量数据的信息转化为基于内容的信息存储,以此来降低存储数据量。

关于综合服务系统方面的发展方向。现在很多机构,包括银行金融等,它们都建设自己专用的灾备中心和专用系统。但是相应的建设成本和维护成本实在是太高,所以今后需要建立第三方中立的,以外包方式的灾备系统。但是要达到这样必须解决问题,比如说最重要是公信力问题,别人怎么会相信,这个时候需要有权威机构的一些制度保障和安全的审计等相关技术保障。

还有一个要解决的问题,就是数据的安全性,怎么来确保身份认证、数据加密等。接着还需要维护的便捷性,要使得业主能够进行远程控制。还有其他的一些特性,包括可扩展性,可共享性。

现在应该来说外包方式是当前国际上灾备市场的主流形式,据统计,国外采用灾难备份外包服务的比例已经达到71%,灾备系统外包得到国际上的广泛认可。

那我们国家灾备存在的问题,都有些什么问题呢?那么数据大集中是我们整个国家信息化发展大趋势,但是与这个趋势相应的灾备建设还很滞后,那么从一些事件中就可以看得出来。目前所建立的灾难备份系统,广泛存在着监控分析、故障诊断、自动化程度不高,应对突发事件和抗风险的能力比较薄弱。我们国家灾备技术储备不足,关键技术基本上是由国外厂商垄断。

那我们国家灾备技术的今后发展方向,应该是如下五个方面:第一建立灾备行业相关的法律和法规,这是根。接着就是要建立适合我们国家信息化系统的灾备标准体系,这个也是规矩,很重要的。然后怎么样来建立国家级的灾备系统服务于中小企业。大家没有钱建不起自己的灾备系统,但是有需要怎么办?第四个是要建立灾备相关技术体系。第五个建立灾备专业人才的梯队。

在法律法规方面主要应该重点建立强制的灾备法律和法规,建立国家级的灾备管理中心。在标准体系来说。由于我们国家信息化系统具有行业分布广,信息化的层次,参次不齐,信息量巨大的特点,这样就决定我们国家如果要建立统一的标准,来规范所有的信息化系统几乎是不可能的,因此,就应该同时建立一个融合了绝大部分通用的标准集,和专有的标准集的灾备标准体系,而不是孤单一个的灾备标准。这就成为我们国家必须要干的事情之一。

另外标准体系不仅仅要包含有技术体系,还应该包含管理体系、监控体系,验证标准等一系列的标准规范。

那么关于国家级灾备的系统,应该建立国家级的灾备服务系统,服务于国家级的各类信息系统。

关于灾备的产学研也是非常重要的,需要积极的研发具有自主知识产权的灾备相关技术,管理方法和应用设备为国家的信息化建设提供信息保障。那些最好都是有产学研结合的方式来完成。

关于人才,现在我们国家灾备的人才非常奇缺,要采取多种形式来培养相关的人才,比如高校可以采取学历制的培养灾备专门人才。还有社会上开设很多灾备应用的,以及综合类的培训。

参与1

0同行回答

“答”则兼济天下,请您为题主分忧!

提问者

slsmg055
系统架构师北明软件有限公司
擅长领域: 存储

问题状态

  • 发布时间:2013-04-23
  • 关注会员:1 人
  • 问题浏览:5221
  • X社区推广