zhuangxinkai
作者zhuangxinkai2018-12-27 16:13
it技术咨询顾问, 哈哈

EMC容灾技术及产品介绍

字数 26495阅读 2599评论 1赞 2

EMC容灾技术及产品介绍

产权说明
本文件中出现的任何文字叙述、文档格式、插图、照片、方法、过程等内容,除另有特别注明,版权均属EMC公司所有,受到有关产权及版权法保护。任何个人、机构未经EMC公司的书面授权许可,不得复制或引用本文件的任何片断,无论通过电子形式或非电子形式。

目 录

第一章 容灾中心建设方法 1
第二章 通用容灾技术框架 3
2.1 企业信息系统保护层次 3
2.2 容灾技术模型 4
2.2.1 业务平台的保护——业务处理能力的冗余 5
2.2.2 数据平台的保护——业务状态数据的复制 5
2.2.3 接入平台冗余和切换 6
2.3 容灾模式 6
2.3.1 容灾层次 6
2.3.2 容灾范围 7
2.3.3 同级容灾或降级容灾 7
第三章 不同容灾技术介绍 8
3.1 不同容灾技术方案概述 8
3.2 基于存储的数据复制技术建设容灾系统 9
3.3 采用虚拟化存储技术建设容灾系统 13
3.4 采用基于主机的数据复制技术建设容灾系统 14
3.5 基于应用的数据复制建设容灾系统 16
3.6容灾方案涉及内容 20
3.7 小结 21
第四章 容灾通信链路设计 22
4.1 通信链路设计概述 22
4.2 容灾通信链路的比较 22
4.3 容灾通信链路带宽估算 26
4.4 EMC容灾数据复制方案设计工具简介 28
第五章 成功案例用户参考 29
附件:EMC DMX-3存储系统简介 30
Symmetrix DMX-3企业智能存储系统的优势和特点 30
企业信息集中化 30
广泛的连接性 30
高层次信息保护 30
跨平台信息共享 30
高可扩展性 30
信息管理 31
优异的性能 31
Symmetrix DMX-3先进的系统结构 31
通道指引板(Channel Director) 33
磁盘指引板(Disk Director) 34
Cache板 34
Direct Matrix 34
磁盘HDA 35
Symmetrix DMX内部数据流及高性能 35
Symmetrix DMX的高可靠性 37
数据保护 37
Symmetrix DMX 不间断修复 38
Symmetrix DMX不间断电源系统 38
Symmetrix DMX的其他特性 39
EMC SRDF容灾原理 40
EMC PowerPath软件简介 43
总结 45

第一章 容灾中心建设方法
容灾建设项目和业务连续性项目与用户的业务要求、应用现状密切相关,并涉及众多技术和产品以及繁多的供应商,因而属于建设复杂、风险较高的项目之一。为降低项目风险,保证容灾中心建设的成功,选择有经验的合作伙伴、并且有成熟实用的方法论指导对信息中心容灾建设非常重要。
EMC为企业提供“容灾中心建设”或业务连续性建设提出了BCSI(业务连续性解决方案集成)方法论,遵循的方法如下:

如上图,EMC为企业进行业务连续性或容灾系统建设分为三个阶段。三个阶段是(不包含项目启动等前期工作):
 规划(Plan)——科学的规划是项目成功的前提。规划阶段需要对企业的IT系统现状进行评估分析,根据企业的业务发展的要求明确进行需求定义,从而在确定的需求基础上选择合适的技术,进行技术架构设计,选择合适的技术方案并采购相应的产品。
 建设(Build) ——本阶段主要是进行技术平台建设(包括整合、数据迁移等)、测试,建设完整的“灾难恢复计划(DRP)”或“业务连续性计划(BCP)”。在科学、合理的规划前提下,建设阶段将相对比较有序。
 管理(Manage)——对容灾建设项目或业务连续性项目而言,建设了容灾技术平台及相关的人员、流程要求仅仅是开始,而不是结束,必须定期更新、维护确保能够满足不断变化的业务发展要求。
贯穿“规划、建设、管理”三个阶段的是“项目管理和服务集成能力”。容灾或业务连续性建设涉及的技术和产品非常广泛,针对不同的业务应用也可能采用不同的技术方案,这些方案来自不同的厂商;由于业务的相互关联,不同的技术方案之间也存在密切的联系,甚至相互依赖。同时,在容灾建设过程中,将有多方供应商提供服务支持,能够协调多方关系,对项目实施进度及质量进行统一控制,对多方服务进行集成调度是“项目管理和服务集成”的重要工作,也是保证项目按时完成并保证质量的重要因素。
EMC的BCSI方法论为每个阶段定义了所需要完成的工作和步骤(总共十大步骤),对每一步骤都有进一步详细的定义,后面章节将针对本设计项目相关的地方提供了详细步骤图。针对不同的客户,EMC将按照以上科学的方法论,在需要时可按照客户的实际情况进行“量体裁衣”,设计合适步骤,为用户进行有计划、有步骤容灾系统、业务连续性方案建设。

第二章 通用容灾技术框架
2.1 企业信息系统保护层次
现代企业的数据中心IT平台(包括主机平台、网络平台、存储平台等)的保护和恢复有不同等级的技术手段,未来企业的业务连续性建设将需要不断提高企业的信息、数据的保护和恢复的等级。

不同层次的数据中心保护
如上图所示,对企业集中化数据中心的IT系统和业务数据进行保护可以有多种不同层次的保护方案,主要分为本地保护和远程保护两个方面。
企业数据中心面向运营的保护及恢复包括三个层次:
1) 平台保护—主要是平台的高可用,如采用主机群集系统和高可用存储平台(包括SAN网络环境的高可用和存储系统的高可用),保证IT平台没有单点故障,实现业务和应用的高可用性。
2) 数据备份—对业务数据进行经常性的本地备份,在IT系统出现物理故障或逻辑故障时,数据备份都能提供可靠的数据保护。
3) 数据恢复—在出现数据错误或丢失时能够进行快速、可预见的数据恢复,减少IT系统的中断时间,降低对业务运营的影响。
建设了完善的本地保护和恢复后,企业需要规划建设面向灾难保护及恢复的“远程”数据及业务保护,它包括三个层次:
1) 远程的信息保护—是将企业的所有重要数据安全的存储在远程站点,提供保护,避免灾难性的事件破坏数据。
2) 远程自动处理—除了提供对生产数据的远程保护外,能够自动进行系统切换、回切及数据恢复等工作,从而在灾难事件发生时能够快速恢复业务运行。
3) 多数据中心保护—通过建设多个数据中心,采用多数据中心的数据保护、恢复技术,防范更大范围的灾难事件。

2.2 容灾技术模型
容灾技术平台建设是企业业务连续性建设的重要基础。EMC公司将企业的IT平台划分为“接入平台、应用平台、数据平台”三部分,建议企业的容灾技术平台建设应该主要着眼于对业务处理平台,数据平台和接入平台这三个重要的系统领域的保护。

容灾技术模型示意图

2.2.1 业务平台的保护——业务处理能力的冗余
容灾技术方案建设中,对于企业的业务平台的保护,主要表现为对业务处理能力的冗余和复用,其中牵涉:
 支持应用系统运行的服务器和操作系统等系统软件
 支持应用系统运行的存储器及存储器和服务器的连接(存储网络等)
 连接服务器的IP网络系统
 支持应用系统实现的中间件或数据库等
客户将需要在容灾中心应该配置与需要保护的生产中心相同厂家、相同版本、相同配置的应用服务器、中间件和数据库。要确保主数据中心和容灾中心的软件运行环境相同。
 实现业务逻辑的应用软件系统
EMC咨询服务部门将可以为客户对上述各方面进行调查评估,分析客户的当前生产中心业务平台当前的现状和特定技术要求,并提出建设容灾方案的具体要求。
2.2.2 数据平台的保护——业务状态数据的复制
在容灾系统中,对数据平台的保护主要表现为对业务状态数据的保护、备份和恢复以及复制,需要保护的业务状态数据包括:
 业务交易状态(数据本身的数据属性为文件、数据库等)
 系统状态-包括应用软件的初始数据、参数设置、以及系统软件的配置数据、参数设置等。
 中间数据(或临时数据)
在容灾系统建设中,数据平台的保护是实现企业灾难恢复的核心。保证数据的安全永远是第一位的,只有支撑企业业务运营的数据能够及时、完整地复制到容灾中心,才可以在灾难发生时,在容灾中心恢复受灾难影响的业务应用。
对不同企业,EMC将根据需求分析的结果,对企业的不同重要级别的应用或业务单元采取不同的数据复制方法,对不同类型的应用,根据其访问特点等也将采取不同的数据复制方法。

2.2.3 接入平台冗余和切换
接入平台在容灾备份系统里, 需要实现对外部接口的冗余及切换,其中牵涉:
o 应用数据接口的切换-包括文件传输、消息机制等
o 应用连接接口的切换- HTTP连接、数据库连接、远过程调用、对象的调用等…
o 网络连接的冗余和切换 – 包括城域网网络连接、拨号连接等等…
企业的“接入平台冗余和切换”的关键在于实现在容灾中心应该配置相同访问能力的网络设备,并在网络配置上确保能快速、方便地将网络访问从主生产中心切换到备份生产中心

2.3 容灾模式
将根据项目启动前期的“现状评估、业务需求分析”等结果,可以从容灾层次、容灾范围、运营方式、容灾规模等多角度进行综合分析,得出适用于用户容灾要求的容灾模式和运营方式。
2.3.1 容灾层次
根据业务恢复时间的长短可以将容灾建设划分为不同的层次:
• 只做数据的灾难保护,仅能保证数据的完整性,此类业务在容灾中心只需要配置存储平台,实现数据的远程复制和存储即可。这种方式可以降低投资,但业务恢复时间很长(一般在3天以上)。数据的灾难保护是仅将生产中心的数据完整地复制到容灾中心的容灾方式。数据的灾难保护是异地容灾的最低级形式,也是最基本的方式,是实现更高级容灾方式的基础。
在灾难发生时,仅有数据的灾难保护无法保证业务的连续性,仅可以保证数据是可用的,若技术策略选择得当,可以保证业务数据的完整性。采用这种模式有以下特性:
√ 业务恢复速度较慢,通常情况下RTO>72小时
√ 业务恢复难度大,需要新增设备
√ 实现技术难度比较低
√ 运行维护成本较低
√ 投资比较节省
• 除数据的灾难保护外,实现应用的高可用,确保业务可以快速恢复。容灾系统的应用不改变原有的业务处理逻辑,是对生产中心系统的基本复制。这种方式有以下特性:
√ 业务恢复速度较快,通常情况下RTO小于24小时,也可以达到几小时级别
√ 业务恢复过程相对简单
√ 实现技术难度比较高
√ 运行维护成本较高,如:增加软件版本管理、软件部署、维护人员等
√ 投资比较高
2.3.2 容灾范围
根据业务影响分析结果,容灾备份存储平台项目的业务将划分为关键业务和非关键业务两大类。未来可以根据需要选择要做容灾保护的业务种类,可以先建设关键业务容灾,未来实现全业务容灾。
 关键业务容灾:业务需求定义中通过业务影响分析定义关键业务的容灾
 全业务容灾。
2.3.3 同级容灾或降级容灾
根据容灾中心配置的处理能力不同,可以分为同级容灾和降级容灾。若未来的在容灾中心为需要进行容灾保护的业务系统都配置与生产中心相同处理能力和高可用能力的业务处理平台(主要是指主机性能,高可用群集等),则为同级容灾设计。如果未来的在容灾中心为需要进行容灾保护的业务系统配置比生产中心的处理能力低或高可用能力降低(比如没有做群集等),则为降级容灾设计。采用同级或降级容灾方式取决于业务需求和投资预算,降级容灾可以减少投资(在主机方面的投资)。

第三章 不同容灾技术介绍
3.1 不同容灾技术方案概述
不同企业的不同业务需求和应用特点将可能需要有不同的容灾技术要求,可以采用多种容灾技术来建容灾系统,EMC专业咨询服务部将更许客户的实际需求提供不同的技术方案。对所有客户的容灾技术平台建设而言,容灾方案的技术核心是数据的保护,实现远程数据复制,并能够在灾难发生时在远端利用复制数据提供企业业务运营支撑服务,因此数据复制技术是构建容灾技术平台的核心。不同数据复制技术的分类如下:

如上图所示,对容灾项目而言,比较可行的是采用连续数据复制技术。
根据不同容灾方案所采用数据远程复制技术位于企业IT架构不同层面又可以分为以下三类容灾方案:
 基于存储层面的容灾方案—利用存储系统的远程数据复制功能建设容灾系统,它包括:

 同类存储平台之间的数据复制;
 异构存储平台之间利用虚拟存储技术实现数据复制。

 基于主机层面的容灾方案—利用主机厂家提供的相关功能软件或第三方的主机软件实现远程的数据复制,建设容灾系统。
 基于应用层的容灾方案—如利用应用软件如Oracle数据库的本身的远程数据复制技术建设容灾系统
本节将针对以上“基于存储层面数据复制的容灾方案” 、“基于主机层面的容灾方案” 和“基于应用层容灾方案(以Oracle Data Guard为例)”等三类不同方式容灾方案进行分析。
对不同的用户,EMC将根据客户的容灾技术方案的实际需要以及技术条件进行评估,为用户最合适的容灾技术方案。

3.2 基于存储的数据复制技术建设容灾系统
采用基于存储的容灾方案的技术核心是利用存储阵列自身的盘阵对盘阵的数据块复制技术实现对生产数据的远程拷贝,从而实现生产数据的灾难保护。在主数据中心发生灾难时,可以利用灾备中心的数据在灾备中心建立运营支撑环境,为业务继续运营提供IT支持。同时,也可以利用灾备中心的数据恢复主数据中心的业务系统,从而能够让企业的业务运营快速回复到灾难发生前的正常运营状态。
基于存储的容灾方案示意图如下:

基于存储数据复制技术的容灾方案示意图

采用基于存储的数据复制技术建设容灾系统是目前金融、电信企业、政府采用较多的容灾方案,有非常多的应用案例,是容灾建设可选择的技术方案之一。
基于存储的复制可以是如上示意图的“一对一”复制方式,也可以是“一对多或多对一”的复制方式,即一个存储的数据复制到多个远程存储或多个存储的数据复制到同一远程存储;而且复制可以是双向的。
基于存储的容灾方案有两种方式:同步方式和异步方式,说明如下:
同步方式,可以做到主/备中心磁盘阵列同步地进行数据更新,应用系统的I/O写入主磁盘阵列后(写入Cache中),主磁盘阵列将利用自身的机制(如EMC的SRDF/S)同时将写I/O写入后备磁盘阵列,后备磁盘阵列确认后,主中心磁盘阵列才返回应用的写操作完成信息。
异步方式,是在应用系统的I/O写入主磁盘阵列后(写入Cache中),主磁盘阵列立即返回给主机应用系统“写完成”信息,主机应用可以继续进行读、写I/O操作。同时,主中心磁盘阵列将利用自身的机制(如EMC的SRDF/A)将写I/O写入后备磁盘阵列,实现数据保护。
采用同步方式,使得后备磁盘阵列中的数据总是与生产系统数据同步,因此当生产数据中心发生灾难事件时,不会造成数据丢失。为避免对生产系统性能的影响,同步方式通常在近距离范围内(FC连接通常是200KM范围内,实际用户部署多在35KM左右)。
而采用异步方式应用程序不必等待远程更新的完成,因此远程数据备份的性能的影响通常较小,并且备份磁盘的距离和生产磁盘间的距离理论上没有限制(可以通过IP连接来实现数据的异步复制)。
采用基于存储数据复制技术建设容灾方案的必要前提是:
 通常必须采用同一厂家的存储平台,通常也必须是同一系列的存储产品,给用户的存储平台选择带来一定的限制。
 采用同步方式可能对生产系统性能产生影响,而且对通信链路要求较高,有距离限制,通常在近距离范围内实现(同城容灾或园区容灾方案)
 采用异步方式与其他种类的异步容灾方案一样,存在数据丢失的风险,通常在远距离通信链路带宽有限的情况下实施。
尽管有以上限制,基于存储的容灾技术方案仍然是当前最优先选择的容灾技术平台,尤其是基于EMC公司的存储系统建设容灾方案有非常广泛的应用,这主要是由于基于存储的容灾技术方案有如下优点:
 采用基于存储的数据复制独立于主机平台和应用,对各种应用都适用,而且完全不消耗主机的处理资源;
 基于存储得数据复制技术,由于在最底层,实施起来受应用、主机环境等相关技术的影响最小,非常适合于这样主机和业务系统很多、很复杂的环境,采用此种方式可以有效降低实施和管理难度;
 采用同步方式可以完全不丢失数据,在同城容灾或园区内容灾方案中,只要通信链路带宽许可,完全可以采用同步方案,而不会对主数据中心的生产系统性能产生显著影响。采用EMC基于存储的同步复制方式的容灾案例有很多,有非常多的成功经验,如江苏移动、中国光大银行、辽宁移动、黑龙江移动都采用了EMC同步复制技术,并能满足大规模I/O吞吐情况下的同步数据复制要求。而目前同城容灾环境中已经具备上述条件,可以很方便部署同步方式复制;
 采用异步方式虽然存在一定的数据丢失的风险,但没有距离限制,可以实现远距离保护。异地数据中心,则采用与北京两个中心的异步复制方式进行数据保护。
 灾备中心的数据可以得到有效利用。
对于基于应用、基于主机、基于存储的三种容灾方案而言,灾备中心的数据通常不可用,仅为生产系统中的数据提供灾难保护和灾难恢复。但对采用基于存储技术的容灾方案中,有很灵活的技术手段可以充分利用灾备中心的数据,从而提高企业的业务运营效率,带来更多的投资回报。如下图所示:

基于存储的容灾方案有效利用灾备数据
如上图所示,生产中心的“源数据—R1”通过存储本身的数据复制机制被复制到了灾备中心,即“目标数据R2”。 “目标数据R2”在正常生产情况下是不可访问的,灾备中心的后备主机只能在灾难发生时,主中心服务停止后,才可以访问“目标数据”,接管主中心的服务(基于主机和应用的容灾方案的灾备中心数据与此类似)。但采用基于存储的容灾方案时,我们可以为“目标数据”建立一个BCV卷或快照、克隆,从而可以给到另外的服务器使用。
利用这种机制,用户可以在容灾中心做很多工作:
 用户开发测试人员可以利用R2-BCV或R2快照得到真实的数据进行新应用开发、测试工作,从而保证新应用的质量,加快新产品上市时间。这种方式在采用基于主机方案和基于应用方案都很难实现,或在获得一份真实数据进行开发测试时需要很长的时间,消耗大量的资源。
 用户的其它应用也可以利用R2-BCV或R2快照满足其它业务的需要。如数据仓库应用通常需要从生产系统抽取数据,一旦进行大规模数据抽取,生产系统几乎处于停顿状态,这时可以利用R2-BCV卷进行数据抽取,从而避免数据抽取给生产系统带来的巨大性能冲击。企业的决策分析系统的数据来源也都可以基于R2-BCV来实现。
由于以上优点,基于存储灾难保护方案是目前采用最多的灾难保护方案。

3.3 采用虚拟化存储技术建设容灾系统
存储虚拟化的技术方法,是将系统中各种异构的存储设备映射为一个单一的存储资源,对用户完全透明,达到屏蔽存储设备的异构和主机的异构的目的。通过虚拟化技术,用户可以利用已有的硬件资源,把SAN内部的各种异构的存储资源统一成对用户来说是单一视图的存储资源(Storage Pool),而且采用Striping、LUN Masking、Zoning等技术,用户可以根据自己的需求对这个大的存储池进行方便的分割、分配,保护了用户的已有投资,减少了总体拥有成本(TCO)。另外也可以根据业务的需要,实现存储池对服务器的动态而透明的增长与缩减。
通过存储虚拟化技术可实现数据的远程复制,以确保容灾中心与主站点的数据保持同步以实现数据容灾。
存储虚拟化技术可以在不同层面实现,如在智能交换机层面、存储层面或增加第三方设备来实现。采用虚拟存储技术进行数据复制同样也可以有同步复制方案和异步复制方案,需要根据具体的需求选择合适的产品。
采用虚拟存储化技术建设容灾方案有以下优点:
 主生产中心和容灾中心的存储阵列可以是不同厂家的产品,存储平台选择不受现有存储平台厂商的厂商限制(但目前市场上产品还没有做到这一点);
 对不同厂家的存储阵列提供统一的管理界面;
在虚拟存储环境下,无论后端物理存储是什么设备,服务器及其应用系统看到的都是其熟悉的存储设备的逻辑镜像。即便物理存储发生变化,这种逻辑镜像也永远不变,系统管理员不必再关心后端存储,只需专注于管理存储空间,所有的存储管理操作,如系统升级、建立和分配虚拟磁盘、改变RAID级别、扩充存储空间等比从前的任何产品都容易,存储管理变得轻松简单。
采用虚拟存储化技术建设容灾方案需要考虑以下问题:
 虚拟存储技术比较新,虽然为异构环境设计,但在异构环境种保证兼容性和数据的完整性依然存在很大风险;
 采用虚拟存储技术,尤其是增加第三方硬件的方式将需要评估对整个系统的高可用性和性能的影响;
 需要验证选择的产品和技术的成熟性以及和现有设备、未来设备的兼容性能力,尤其是难以满足复杂环境、大规模容灾要求的实际适用情况;
 虚拟存储技术目前尚不够成熟,还处于发展阶段,而且对于异构存储环境部署基于虚拟存储技术的容灾方案,目前还无任何案例和应用;
3.4 采用基于主机的数据复制技术建设容灾系统
采用基于主机的容灾方案的示意图如下:

基于主机的容灾方案示意图

采用基于主机系统的容灾方式的核心是利用主、备中心主机系统通过IP网络建立数据传输通道,通过主机数据管理软件实现数据的远程复制,当主数据中心的数据遭到破坏时,可以随时从备份中心恢复应用或从备份中心恢复数据,从而给企业提供了应用系统容灾的能力。
实现远程数据复制的数据管理软件有很多产品,主机厂商和一些第三方软件公司(如Veritas)提供基于主机的数据复制方案,如Sun公司的Availability Suite软件和Veritas Volume Replicator(VVR)等软件可实现基于主机的远程数据复制,从而构建基于主机的容灾系统。
采用基于主机的数据复制技术建设容灾方案有以下优点:
 基于主机的方案最主要的优点是只对服务器平台和主机软件有要求,完全不依赖于底层存储平台,生产数据中心和后备数据中心可以采用不同的存储平台;
 既有针对数据库的容灾保护方案,也有针对文件系统的容灾保护方案;
 有很多不同的基于主机的方案,可以满足用户的不同数据保护要求,提供多种不同数据保护模式;
 基于IP网络,没有距离限制;

同时,采用主机的数据复制技术建设容灾方案有以下局限:
 基于主机的方案需要同种主机平台;
 基于主机的数据复制方案由于生产主机既要处理生产请求,又要处理远程数据复制,必须消耗生产主机的计算资源,对于主机的内存、CPU进行升级是非常昂贵的,因而对生产主机性能产生较大的影响,甚至是产生严重影响;
 灾备中心的数据一般不可用,如果用户需要在远程数据中心使用生产数据给开发测试、DW/BI应用使用将非常困难;
 利用主机数据复制软件的方案比较复杂,尤其是和数据库应用结合的时候需要很复杂的机制或多种软件的结合,从而对生产系统的稳定性、可靠性、性能带来显著影响;
 如果有多个系统、多种应用需要灾难保护,采用基于主机的方案将无法有统一的技术方案来实现。
 管理复杂,需要大量的人工干预过程,容易发生错误。

目前,企业采用基于主机的数据复制技术建设容灾方案相对比较少,通常适合单一应用或系统在I/O规模不大的情况下局部使用。在应用I/O负载比较大,需要灾难保护的应用及应用类型比较多、主机环境复杂的时候,基于主机系统的方案并不适用。

3.5 基于应用的数据复制建设容灾系统
基于应用之间的数据复制技术也有很多种,以下按常用的Oracle 9i/10G用自带的Oracle Data Guard技术来进行分析(Microsoft SQL*Server的Mirror技术采用类似方式)。
Oracle Data Guard技术是Oracle数据库系统特有的灾难备份和恢复技术,利用了Oracle数据库系统的日志备份和恢复机制。Data Guard的基本原理是在与主系统完全一致的硬件和操作系统平台上建立后备数据库系统,同时对主数据库的数据库日志(Log)和控制文件等关键文件进行备份。
在主系统正常工作的同时将主系统产生归档日志文件(Archived Log)不断的传送到后备数据库系统,并且利用这些日志文件在后备数据库系统上连续进行恢复(Recover)操作,以保持后备系统与运行系统的一致。当主系统发生故障时,使用备份的数据库日志文件在后备数据库上恢复主数据库内的数据。

图5.18. 采用Oracle Data Guard的容灾方案

Oracle9i/10G Data Guard提供了三种模式:
 最大保护模式
 最大可用模式
 最大性能模式
Oracle Data Guard最大保护模式提供了对于主数据库最高级别的数据可用度,是一种保证零数据丢失的容灾解决方案。当运行最大保护模式时,Redo纪录以同步的方式从主数据库发送到后备数据库,而且,在主数据库方的事务,一定要等到至少有一个后备数据库确认接收到事务数据,该事务才被提交。在这种模式下,一般配置至少两个后备数据库,以提供双重容错保护。如果后备数据库不可用,则主数据库方会自动挂起处理进程。
最大可用性模式提供了对于主数据库次高级别的数据可用度,保证零数据丢失,并对单个组件的失败提供保护。与最大保护模式一样,redo数据被同步地从主数据库发送到后备数据库。在主数据库方的事务,一定要等到后备数据库确认接收事务数据,该事务才被提交。然而,如果后备数据库因为诸如网络连接之类的问题而不可用时,主数据库方的处理会继续执行。这样,会出现后备数据库暂时与主数据库不一致的情况,但是一旦后备数据库恢复可用,数据库会自动同步,不会有数据丢失。
最大性能模式是缺省的保护模式。与最大可用性模式相比,它对于主数据库提供稍弱一点的保护,但是性能更高。在这种模式下,当主数据库对事务进行处理时,日志数据被以异步的方式传送到后备数据库。在主数据库方,提交操作在完成写的动作前、无需等待后备数据库的接收确认。在任何时候,如果后备方不可用,主数据库方的处理继续执行,这样对性能不会有什么影响。

采用Oracle 9i/10G Data Guard技术进行灾难备份需要满足以下前提条件:
 后备系统与主系统的硬件平台、操作系统、操作系统版本等保持一致;
 后备系统与主系统上Oracle用户的权限一致;
 后备系统与主系统的Oracle数据库版本一致;
 后备系统与主系统的Oracle数据库配置文件一致。
采用Oracle Data Guard建设容灾方案有以下优点:
 完全通过Oracle数据库机制来实现,完全不依赖于其它软件和底层存储平台;
 可以满足用户的不同性能、数据保护要求,提供多种不同数据保护模式;
 可以实现一对多的数据复制,提供多重保护;
 后备数据库可以在很短的时间内提升到生产状态(因为数据库已经在运行);
 基于IP网络,没有距离限制;

同时,采用Oracle Data Guard建设容灾方案有以下限制:
 Oracle Data Guard的三种模式都将对生产数据库系统的性能产生影响,因而需要更多的处理资源;
 后备数据库不可用,如果用户需要在远程数据中心使用生产数据给开发测试、DW/BI应用使用将非常困难;
 只能对Oracle数据库数据提供保护,不能对其它应用数据—如文件应用等提供灾难保护;
 管理复杂,需要大量的人工干预过程,并且要精通数据库恢复技术,容易发生错误;
 难以实现大数据量源数据库和目标数据库初次同步,没有相应解决方案;
业界其它基于应用的的容灾方案的优点和局限性与Oracle Data Guard模式基本相同,如Golden Gate和Quest Shareplex软件,下面也介绍一下:

其实现原理和Oracle DataGuard类似,针对数据库的日志进行数据的增量复制,通过Queue技术来保证传输的可靠性。其方案优势是:
 同Oracle DataGuard相同的缺点(见上面部分)
 更加灵活,此方案不依赖于主机系统平台,在主生产主机和备用节点主机不同的情况更具有优势;
缺点是:
 同Oracle DataGuard相同的缺点(见上面部分)
 只能是异步模式(基于日志和Queue技术),不适合于同城容灾和高要求的容灾要求,如的零数据丢失要求;
 Oracle对此技术方案不宣布技术支持和问题处理,因此提高了此容灾方案的风险;

3.6容灾方案涉及内容
根据的现状评估、需求分析和技术选型的结果,容灾技术方案设计将需要包含以下内容:
• 容灾总体架构设计
• 存储级容灾数据复制方案设计
• 应用级别(或其它方式)的数据复制方案设计
• SAN网络规划设计
• IP网络规划设计
• 主机及应用部署方案
• 系统调优(根据需要选择)
• 数据迁移方案
• 存储部署规划
• 备份系统设计(根据需要)
• 机房设计或机房环境要求。
• 等等

3.7 小结
基于应用的容灾方案、基于主机的容灾方案和基于存储(包括虚拟存储技术)的容灾方案都有各自的适用范围,适用于不同的灾难保护需要。用户需要根据具体的实际需求来选择合适的容灾保护方案。
不同的用户不同的业务系统、不同应用对容灾的要求不同,要求不同的容灾服务等级。EMC在未来将按照科学流程和方法,并利用EMC公司在信息存储管理领域的专业技能和经验为用户进行IT环境的评估和业务影响分析,发掘客户业务需求对容灾技术的要求,从而建议最合适的容灾方案。
对企业而言,选择容灾方案既要考虑选择合适技术方案,也需要考查实现该方案的产品在技术上是否成熟、可靠,性能和灵活性是否满足要求,同时也需要考查提供该解决方案的供应商是否有丰富的经验和认证的技能来保证方案的确实可行并能够成功实施。
EMC公司在容灾领域有领先的技术并已经得到了广大用户的实际应用检验,方案的可行性、产品的成熟度、稳定性、可靠性、灵活性都的到了大量实际应用的考验。EMC的技术服务队伍已经在众多容灾项目成功实施过程中表现出强大的技术力量,能够确保用户容灾方案的成功实施。

第四章 容灾通信链路设计
容灾通信链路设计是容灾系统建设非常重要的部分,也是容灾方案设计的难点、要点之一,所以单列本章节进行阐述。
4.1 通信链路设计概述
下面是针对链路设计的相关技术介绍,供参考:
基于主机或基于应用的容灾技术来建设容灾系统,则将采用标准的IP网络连接,通信链路可以是ATM、E1/E3、IP等;如果采用基于存储或虚拟存储的技术来建设容灾方案,则可以采用Fibre Channel、ESCON、DWDM、SONET等通信链路,也可以通过FCIP设备利用ATM、E1/E3、IP等通信链路。
不同的通信链路有不同的要求,如距离限制、带宽能力等;而不同的容灾技术、不同的容灾应用对通信链路的要求不同;采用同步方式或采用异步方式进行数据复制对通信链路的要求也大不相同。
对于一个容灾方案,无论采用哪种复制技术,都需要解决以下问题.
在我当前选择的容灾中心距离的情况下:
• 我需要哪种链路? 需要多少条?成本如何?
• 这么远的距离对应用影响是什么? 如采用同步方式,响应时间是否太长?I/O数量能否满足?
• 如采用异步方式,我的RPO是多少?需要配多大的Cache量?
设计的链路是否一定满足预期的目标?
根据用户的不同要求进行科学的通信链路设计是保障用户在合理的通信成本下成功实现容灾系统建设的重要步骤之一。

4.2 容灾通信链路的比较
当前业界容灾方案的通讯链路基本采用有“裸光纤直连交换机方式、通过DWDM设备连接裸光纤方式、IP网络方式”等,每种方式各有利弊,以下对不同通信链路方式进行比较。
1) 通过裸光纤直连交换机,采用FC协议
采用FC协议的通信链路只适用于基于存储复制或虚拟存储复制的容灾方案。在这类方案中,生产中心与备份中心的光纤交换机通过裸光纤直连,如下图所示:

裸光纤直连交换机的通信链路模式

两个中心存储系统的容灾端口通过光纤交换机和裸光纤进行连接,可以保证同步或异步数据复制的性能。为保证高可用,通常采用冗余连接链路设计。容灾链路裸光纤可以和生产主机共享SAN交换机,也可以独立SAN交换机(也需要冗余)或SAN Router。通常为避免容灾链路通信和主机访问存储的相互干扰,采用独立的SAN来连接容灾通信链路的方式采用较多。
不同容灾方案需要的通信链路数量是不同的,具体需要链路的条数(即带宽要求)需要具体分析、计算获得。
2) 通过CWDM/DWDM设备直连裸光纤
采用密集波分复用技术,可以加载多协议,例如FC协议、IP协议,如下图所示:

采用CWDM/DWDM设备的通信链路模式

如上图所示, 通过CWDM/DWDM技术,主数据中心和容灾数据中心的IP网络连接、FC连接都可以复用到共享裸光纤,比较好的解决了裸光纤的利用率和多协议复用的问题。为避免单点故障,同样可以采用冗余连接、没有单点故障的解决方案。同时,采用CWDM/DWDM方式有更多的拓扑方案,需要在具体设计时进行分析后确定。
3) 利用IP网络,采用ATM或E1、E3线路
采用基于主机和基于应用的容灾方案可以直接利用IP网络,在此不再多加说明。采用“基于存储或基于虚拟存储”的容灾技术将需要进行FC协议到IP协议的转换,从而将FC加载在IP网络中传输。此方案采用国际流行的IP网络协议和链路,通过FC/IP转换设备(例如Nishan),将FC通道协议打包在IP数据包内,通过IP链路传输,理论上没有距离的限制,适用于远程异步数据复制,是性价比很好的选择。连接示意图如下:

采用FC到IP设备的通信链路模式
4) 各种种通信链路所提供的带宽(只供参考)
线路类型 理论带宽
(Mbps) 实际带宽
(去掉overhead后)(Mbps) 复制1TB
所需时间
T1 1.544 1.08 85天
T3 45 31.31 71小时
100bT 100 70.00 31.7小时
OC3 155 108.50 20.4小时
OC12 622 435.40 5.1小时
千兆以太网 1000 800 2.9小时
OC48 2488 1741.60 1.2小时
OC192 9953 6967.10 19分钟
• T1 - 1.544 megabits per second
• T3 - 43.232 megabits per second (28 T1s)
• OC3 - 155 megabits per second (84 T1s)
• OC12 - 622 megabits per second (4 OC3s)
• OC48 - 2.5 gigabits per seconds (4 OC12s)
• OC192 - 9.6 gigabits per second (4 OC48s)

4.3 容灾通信链路带宽估算
存储系统的性能配置要求和通信链路带宽要求需要根据用户的数据中心的实际情况进行分析计算决定。准确地估算用户的容灾通信链路的带宽要求需要对各中心需要容灾保护的应用的I/O负载进行数据收集,采集各应用I/O特征、负载大小,尤其是写I/O的数据,利用所收集的写I/O数据并结合所采用的容灾数据复制技术以及数据复制模式(同步、异步)、应用恢复的RTO/RPO要求来计算容灾通信链路的带宽要求。
EMC公司提供标准的方法和工具为客户进行容灾数据复制通信链路的设计,通常按以下步骤来估算容灾方案的通信链路带宽需求:
1) 当前生产中心I/O性能数据收集
主要收集需要进行容灾保护的应用、主机存储的I/O性能数据。数据的收集从两方面获得:
 从主机上获得I/O性能数据(如在UNIX平台上可利用IOSTAT,SAR可得到I/O性能数据;在Windows服务器上可利用Perfmon工具获得Windows服务器的I/O性能数据);
 从存储平台上获得I/O性能数据,通过存储平台的性能采集工具可以获得访问存储的每个LUN上的I/O分布情况,包括I/O特征(EMC提供完整的工具收集存储平台的I/O性能信息)。

2) 利用EMC设计软件过滤I/O性能数据,得到I/O写的数据
容灾通信链路的设计与I/O写的性能要求相关,只有写I/O才复制到远程容灾中心,因此写I/O的特征及负荷决定了链路的要求。此过程将过滤无关数据(如非关键应用的I/O—不需要容灾),得到每秒写I/O次数,不同应用类型的平均I/O块大小,是否有调优的需要等。下图是通过EMC工具获得的写I/O性能数据参考样本。

I/O写性能数据参考样本(EMC工具收集)
3) 根据采集的I/O写性能数据估算客户应用的总体峰值带宽和平均带宽
4) 根据容灾链路类型,连接方案估算容灾通信的“延时”
要考虑不同通信协议的额外开销以及物理链路带来的“延时”。
5) 估计未来性能增长要求和需要预留的峰值空间
通信链路的设计(包括所有能力规划)都需要考虑未来业务的增长,并预留增长空间。
6) 确定同步复制模式还是异步复制模式,如选择异步复制模式,则需要确定RPO要求(最多允许丢失多少数据)--根据RPO要求和业务的I/O量可以设计链路需求;也可以根据现有链路情况,结合业务的I/O量分析可以实现的RPO能力以及在源数据端需要为异步复制额外增加的Cache开销。
7) 利用EMC的专门工具进行设计
根据不同复制模式,将收集的I/O性能等参数输入到EMC工具中,同时考虑链路容余的要求,将可以为客户计算出所需要的带宽要求。
EMC公司未来将采用以上方法为用户进行容灾链路设计,该方法已经在很多EMC为重要提供的容灾方案中得到应用并获得成功。利用EMC科学的链路设计方法及独到的设计工具,EMC将能够为用户提出合理的链路规划方案,为成功实施容灾方案奠定基础。

4.4 EMC容灾数据复制方案设计工具简介
EMC公司根据已经为广大高端用户提供容灾建设的经验,开发设计了专门的工具—ET Tools,用来做容灾数据复制方案的设计。该工具利用用户当前的业务I/O情况和用户的服务水平要求可以分析设计复制方案中的关键要求:通信链路带宽和复制平台(如主机或存储)的处理能力。也可以用来评估用户在受限的通信条件下所能达到的RPO要求。该工具在未来用作用户容灾技术平台服务水平的评估工具,可以定期进行I/O性能统计、分析性评估容灾数据复制平台是否满足不断变化了的业务发展要求。

第五章 成功案例用户参考
EMC在国内外拥有众多的成功案例和大量的用户,下面只列出部分国内用户供用户参考:

• 中国民航信息中心
• 华为公司
• 招商银行
• 陕西联通
• 云南移动
• 江苏移动
• 山东网通
• 山东移动
• 山东联通
• 中国公安部
• 中国民生银行
• 中国光大银行
• 西门子中国
• 河南联通
• 北京移动
• 黑龙江移动
• 辽宁移动
• 中国联通总部
• 国家无线电管理局
• 等等...
附件:EMC DMX-3存储系统简介
Symmetrix DMX-3企业智能存储系统的优势和特点
企业信息集中化
SymmetrixDMX-3企业智能存储系统能将分散在企业各部门的信息集中到企业核心数据中心,从而使企业在保留应用计算分布式好处的同时实现信息存储、管理集中化。
广泛的连接性
SymmetrixDMX-3企业智能存储系统可以同时连接当今商业企业的主要计算环境,包括异构主机平台、网络、文件服务器、网络服务器和管理平台。
高层次信息保护
SymmetrixDMX-3智能存储系统通过一整套智能化软件、硬件解决方案,提供可靠的业务连续性保护措施, 避免任何业务中断。
跨平台信息共享
EMC企业智能存储系统使用先进的智能软件产品,可以将容量巨大的信息快速传输给不同计算平台的使用者,还可以在开放系统环境之间构架信息通道,从而确保企业各部门依据需要分享即时信息。
高可扩展性
SymmetrixDMX-3企业智能存储系统是一项能真正保护用户投资的产品,不管应用服务器平台或基础数据如何改变,Symmetrix DMX-3智能存储系统将始终适用于企业的存储需求。
信息管理
SymmetrixDMX-3企业智能存储系统通过通用的信息管理系统来简化系统管理任务,通过实现企业数据中心化, 它可以提供轻松的系统管理功能和传送即时用户业务数据,使您始终确保系统完美运行。
优异的性能
SymmetrixDMX-3企业智能存储系统采用大容量超高速缓存关键技术,提供世界最优的存储系统性能,最大限度地消除计算系统的I/O瓶颈。
EMC公司提供独一无二的解决方案使企业能够通过相应的应用软件和硬件来集中管理经营过程中的全部数据,它使企业能够合并、管理、分享、保护和利用不同计算机平台、不同部门之间的信息,还能使企业充分改善整个系统和整个网络的工作性能。
EMC智能存储系统的哲学包括以下四个重要组成部分:
 提供世界最优的性能、扩充性和连接性;
 关注于信息保护、信息共享和信息管理;
 提供智能的存储系统;
 使用工业标准的接口。
Symmetrix DMX-3先进的系统结构
要了解究竟是什么使SymmetrixDMX-3做得更好,首先有必要大概了解一下存储阵列结构。在高端存储中,结构很重要。结构直接影响着下列实际问题:性能、可用性、功能及经济效益。
以前,有两种基本的高端存储内部互联结构:总线和交换机基于总线的设计以极具诱惑力的价格提供了较好的性能,但难以扩展以达到更高的性能;基于交换机的设计试图做得更好,但最后也只是以将问题从总线转移到交换机而告终。从客户的角度来看,一切都没有变。这两种结构在争用、冗余、带宽及潜在的故障点等方面都存在问题。所有这些问题都将直接影响性能、扩展性及服务水平。
SymmetrixDMX使用“DirectMatrix”这一全新的内部体系结构,它超越了以前的总线和交换机结构。Direct Matrix 与这两种结构有本质的不同,它既不使用总线,也不使用交换机。 而是使用矩阵,一个可实现点对点连接的简单底板,其速度更快,价位更低,而且可靠性更高。而且,由于它不使用总线和交换机,从而避免了争用、延迟、带宽及潜在的故障点等方面的问题。 它能够提供更好的性能、更高的可用性、更强大的功能,并且可带来更显著的经济效益。
EMC公司SymmetrixDMX系列是全球功能最强大的企业智能存储系统,主要有以下几种型号的产品:DMX800、DMX1000和DMX2000、DMX3000、DMX-3。并采用了全新的DirectMatrix体系架构,其体系结构图如下所示:

从上图可以看出,SymmetrixDMX磁盘控制器体系结构是非常简捷的。下面是图中所涉及的主要部件及功能说明。
通道指引板(Channel Director)
Channel Director的主要作用是负责主机I/O通道与 Symmetrix DMX Cache之间的数据 传送 和控制。每快Channel Director 上含有多至8个1.3GHz的PowerPC 的CPU ,Symmetrix DMX 系统支持与大型机Mainframe、 UNIX开放系统和Window NT不同平台的并行连接。 Symmetrix DMX 通过符合FWD SCSI, ULTRA SCSI, ULTRA II SCSI,Fibre Channel接口标准的Channel Director与UNIX开放系统和Windows NT连接; 而通过ESCON、FICON并行或串行 接口标准 的Channel Director与大型机MainFrame连接。
磁盘指引板(Disk Director)
Disk Director是盘控与物理磁盘的接口,负责Symmetrix DMX Cache与磁盘HDA之间的 数据传送和控制。每块Disk, Director上均含有4个1.3GHz的 PowerPC CPU。
Cache板
Cache缓存板是SymmetrixDMX系统的关键部件之一。系统主要的读和写操作都是通过Cache来完成的。从而使得主机、Channel Director和Cache板之间的数据传输速度达到电子速度, 大大快于传统的涉及磁盘机械动作的数据传输速度。Cache和磁盘之间的数据传输通过优化算法而最大限度地提高性能。
Direct Matrix
由EMC公司全新推出的SymmetrixDirectMatrix结构是指分别利用专用的高速连接直接连接所有高速缓存、ChannelDirector和DiskDirector。每条专用连接的带宽(数据总线)为1000MB/秒。I/O控制器方面,ChannelDirector和DiskDirector最大均可内置8个,而高速缓存则可以内置8个最大16GB的模块。使用连接各I/O控制器和高速缓存后,整个系统的带宽最大可达134.4GB/秒。将高端存储阵列想像为一个大的数据移动和存储设备。数据从前端通道控制卡出发,经由缓存控制卡,最后到达后端磁盘控制卡;或者反向移动。将互连看做存储阵列中所有数据通行的传输线。 Direct Matrix 与众不同之处就在于,每个控制卡都有自己专用的到达每个目标的传输线。 Direct Matrix 底板最多可拥有 128 条传输线,所有传输线都是直接而且专用的,不会与它人共享。 无需等待,而且没有交通阻塞。所有数据都必须通过缓存移动,可能最形象的就是将缓存想像为传输线收费站,所有数据都必须在自己到达目标所需经由的道路上停留。 Direct Matrix 缓存结构的与众不同之处就在于,有32条分道可供数据通过称为区域的缓存。区域更多,意味着并存IO更多。由于互连中有128条传输线,并且有32条分道可供通过缓存,因此高峰时间根本就不是问题。
由于采用了比总线和crossbar更先进的DMX架构,从而解决了原来产品中的瓶颈问题--高速缓存和I/O控制器之间的传输速度。另外,产品内部的I/O控制器和高速缓存中发生故障时,由于可以只拆除故障组件,因此就能够将故障的影响范围降低到最小限度。
全新的DirectMatrix架构不但实现了Symmetrix内部设备之间的高速、无阻塞互连,而且实现的更强的可扩展能力和容错能力,使Symmetrix高端存储的技术水平达到了新的高度!
磁盘HDA
Symmetrix DMX系统的磁盘采用符合2Gb/s Fiber Channel Disk标准,并配置特大disk cache,及专门优化的disk微码。每个HDA配置有控制器,包括控制逻辑单元,微处理器和磁盘级缓冲区 (16-32MB)。微处理器用于磁盘本身的管理,使得Symmetrix DMX 具有 并行处理能力,如用于磁盘诊断和并发数据传输从而提高性能,其结构如下图所示:

Symmetrix DMX内部数据流及高性能
SymmetrixDMX产品基于任何时刻工作数据集相对整个系统存储能力较小的准则而设计。如果工作数据集已经在Cache中,则I/O性能将得到显著提高。因此Symmetrix DMX 配置大容量Cache来传输数据 ,数据在处理器与Cache之间以电子速度传输,这样能大大地提高系统性能。下图详细地描述系统各部件之间的关系。

在Symmetrix DMX系统中,数据流由各个Director进行控制:
Channel Director处理来处自主机的I/O请求,它存取Cache中的目录以决定 Cache 中的数据是否满足请求,目录中包含了每个Cache页和每页面中的数据块的信息;
Channel Director使用Age Link Chain表和Least Recently Used(LRU)算法管理 Cache。LRU算法使用Age Link Chain表确保最新使用的页驻留在Cache中;
预取算法智能地动态检测对磁盘设备的顺序数据访问模式。所有Director在数据请求之前,将磁盘设备的相应数据块提升到Cache中,以此提高Cache访问命中率;
Disk Director管理对磁盘设备的访问。它以后台方式运行,负责将Cache中的数 据块 真正地写入磁盘。
SymmetrixDMX智能存储系统使用上文描述的大容量Cache技术和多种智能算法,在标准配置的条件下能得到100%的写命中率和70%到90%的读命中率。通过先进的ICDA结构设计,使Symmetrix DMX能够在用户的实际应用中达到前所未有的高性能!
Symmetrix DMX的高可靠性
数据保护
SymmetrixDMX企业智能存储系统除了系统部件上采用冗余设计,消除单点隐患之外,还在数据可靠性方面提供了多级RAID保护,包括RAID 0,RAID 1,RAID 0/1,RAID 5。
动态备盘(Dynamic Sparing)―非RAID的数据保护方式;
SRDF远程数据镜像技术―EMC独有的多点远程镜像数据保护方案.
Symmetrix DMX智能化后台自我维护系统
SymmetrixDMX具有全面先进的自我监测、自我诊断和自我修复算法。这种方式的目的是在用户发现系统故障之前,就主动识别内部临时性错误,这些错误很有可能导致任何类型用户观察到的硬件失败。SymmetrixDMX试图在这些错误造成数据对用户或应用程序不可用之前就发现和恢复它们。这种错误避免方式是通过一系列错误检测、错误日志和通知来完成的。
Symmetrix DMX 在空闲时间主动地读磁盘数据,查看任何类型的错误。如果发现一个 可纠正的错误,就把纠正后的错误重写到磁盘上。系统再一次读该数据块以验证它被永久性地纠正。如果错误是可纠正的,有关信息将写在日志中,系统继续读其他数据。如果错误不是永久性可纠正的,也就是纠正后写入磁盘再读出又有错误,这预示着磁盘相应的区域很有可能是不可用的,在这种情况下,已被纠正错误的数据会写到磁盘的其他区域,这块不可用的区域被打上标记并且系统将发出一个通知。当一个磁道上有一定数量的不可用区域时,这个磁道上的数据会全部写到另外新分配的磁道上。以上所述的整个过程全部是通过SymmetrixDMX的微码Microcode来完成的,对用户是透明的。
SymmetrixDMX有自动拨号功能。当SymmetrixDMX检测到某一部件发生故障时,系统会自动通过与SymmetrixDMX连接的modem拨号到EMC总部或区域的客户支持中心。客户支持中心的专家就会分析这些故障,如果故障较小他们会自行纠正这些错误,如果故障比较严重他们就会通知EMC公司本地的客户支持工程师,本地的工程师带着相应的备件在用户很可能还没有发现系统出现故障前赶到现场进行维护。EMC公司使用800拨号服务,用户不需要付拨号的电话费。此功能是可选的,可依据用户的要求而设置或取消。
Symmetrix DMX 不间断修复
SymmetrixDMX系统中所有硬件部件都可以不间断修复,微码可在不影响用户操作和应用运行的情况下重新装入。可热插拔的硬件部件包括:
通道适配器
磁盘适配器
硬盘(HDA)
Cache板
电源
电池
风扇
Symmetrix DMX不间断电源系统
SymmetrixDMX系统有一个电池备份系统。当出现AC电源失败时,电池备份系统提供对Cache中数据的保护,保证Cache中的数据能全部写到硬盘中。不仅如此,电池备份系统还可为整个SymmetrixDMX系统供电。当出现AC电源失败时,SymmetrixDMX将继续接收来自主机的I/O请求达3分钟,如果三分钟后外部电源还没有恢复,对来自主机的I/O请求,Symmetrix DMX 会给主机一个“设备没有准备好 ”的状态信号,然后把当前在Cache 中还没有写到硬盘中的数据全部写到硬盘上,然后执行一个正常 的关机过程。当外部电源恢复后,SymmetrixDMX系统不需要重新启动立刻变成可操作状态。
Symmetrix DMX的其他特性
Symmetrix DMX还采用了如下的新技术手段保证用户数据的万无一失:
-真正的容错体系结构设计,所有部件,包括前端接口、控制卡、总线、内存、磁盘、电源、风扇等设备均采用容错体系结构设计,任何部件的损坏不会影响系统的整体性能。
- Symmetrix DMX采用cache destage保护措施,在系统意外掉电情况下,能够将cache中的数据全部destage到物理硬盘,确保数据的一致性。
- Symmetrix DMX使用多个独立的Direct Matrix,将数据吞吐、控制信息和环境检测信息分为三个独立的Direct Matrix进行通信,实现完全无阻塞的通信和错误隔离,任何单个部件的错误都不会影响其他系统的运行。
-全面的在线升级能力:所有硬件部件、功能性软件及存储服务器内部微码均具有在线升级能力,使用户的业务能够实现真正的7*24应用。
-世界第一的售后维护方式:SymmetrixDMX继续提供端对端完整性检查、不间断监控、错误隔离以及呼叫总部诊断等功能,使SymmetrixDMX成为了实际的可用性标准。内部所有部件均具有自检能力,一旦发现故障,将通过拨号方式将错误代码发送到EMC公司位于全球的4个售后服务中心,售后服务中心将通知本地服务人员进行维修。这样的售后服务模式,在应用系统受系统故障影响前完成系统的维护,充分保证用户系统的高可用性。
- EMC 开发的存储管理软件提供了多厂商环境下自动、简约、开放的管理手段。 SymmetrixDMX提供一套业界功能最强大的存储软件,提供存储系统从底层物理磁盘到上层应用文件系统、数据卷的全面监控、管理、配置、报表及优化,而且与以前的Symmetrix产品完全兼容。无论是智能管理产品、信息安全应用程序还是基础服务功能,所有 EMC 软件都可以直接用于 Symmetrix DMX。将EMC存储软件的功能与DMX性能和可用性结合在一起,现在与以前相比,您的企业可以达到更高的服务水平。
- 充分发挥 Direct Matrix 的强大功能的关键是 Symmetrix 存储操作环境 — Enginuity。
首先,Enginuity具有数十个能够提高性能并充分发挥硬件功能的专利算法。其次,它实现了我们前面刚刚讨论过的诸如端对端完整性检查等高级可用性功能。再次,它是开放的。它支持数百种服务器类型(大型机、开放式主机、windows等操作系统)、多种协议、多种行业标准API和数百种ISV存储应用。最后,它是存储应用程序的稳固基础,能够与各代产品兼容,从而保护我们客户的投资。
EMC SRDF容灾原理
概括地讲,Symmetrix远程镜像软件SRDF(Symmetrix Remote Data Facility)是 一 种热备份方式的容灾系统。它是EMC公司的Symmetrix ICDA系统用于保护本地数据的磁盘 镜像(RAID-1)技术的一种发展。
如果某个磁盘卷使用了磁盘镜像来实现保护,那么在同一个子系统中会分配另一个磁盘卷作为它的完全拷贝,写到一个磁盘卷上的任何数据会同时写到另一个镜像的磁盘卷上。通常市场上实现的RAID-1技术是一个基于处理器的方案,其包括大量的系统程序、I/O描述和性能的隐含关系, 并依赖操作系统的功能实现数据的恢复。EMC的Symmetrix ICDA的磁盘镜像(RAID-1) 技 术是完全在磁盘子系统中实现的。被称作M2(镜像)的第二个磁盘卷,其数据是由子系统在向基本卷(M1)写数据的同时被写入的。这些功能的实现对操作系统是透明的,无需进行系统编程、I/O描述,也不占主机的资源。因此这一级保护不影响系统性能。用户只要定义一个地址,其余的就可以交给Symmetrix去处理。有了磁盘镜像RAID-1的保护,无论M1或M2磁盘卷中的哪一个 失效,剩下的卷都可以保证运行的正常继续。在等待故障盘的更换和进行磁盘内容拷贝期间,维持运行的那个盘失效的概率是极低的,可以忽略不计,因此在Symmetrix企业智能系统中用户可以在不损失系统性能的情况下确保有100%的可用性。
SRDF远程容灾方案就是在上述磁盘镜像(RAID-1)技术成功的基础上,通过对磁盘子系统性能的不断改进而产生的。1994年,EMC通过实现一种独特的RAID-1版本而使自己向前跨越了一大步。新的技术不再是把M2驱动器安置在与M1相同的存储子系统中,而是移动到第二个子系统中,并通过ESCOM光纤或其它的电信线路实现与第一个驱动器的连接。这显然对两个子系统之间的通信技术提出了挑战,但其实际效果与RAID-1类似。从最简单的概念来说,这就是我们 所说的SRDF(Symmetrix远程数据镜象)。
上面所提到远程镜像,其性能问题是最重要的。数据的复制处理显然需要消耗资源,从而会影响到子系统的性能。为使Symmetrix的性能具有竞争力,我们又对其增加了一个“预留”资源的缓冲池,它可以为用户提供新的专用功能,以提高用户在其业务领域的竞争力。
SRDF在概念上为用户提供了一种有趣的特性组合。首先这一对磁盘卷在名称上变成了R1(远程1)和R2(远程2),但其功能于其前身M1和M2相同。其中第二个数据拷贝R2处于实时备份模式,它所处于的Symmetrix系统与基本拷贝(R1)所处于的Symmetrix系统之间的距离可以是近在咫尺,也可以相隔千里。由于处于不同的系统,所以可以分别进行寻址。第二个数据拷贝(R2)可以按照只读模式供附加在第二个子系统上的第二个处理器(或LPAR)使用。这样当任何一台出现故障时,系统应用将利用剩下的完好的磁盘卷继续运行。出故障的磁盘在不影响系统运行的情况下经过维修或更换之后,可以重新恢复与完好磁盘的同步。
总而言之,SRDF建立物理上独立的两个Symmetrix系统之间的完全的、实时的数据镜像,为企业提供两套实时生产数据,帮助企业在数据中心现场发生灾难时,确保另有一套完整的生产数据安全可用,达到容灾级别的数据高可用性。
SRDF的实现包括以下部分:
二套或多套Symmetrix系统
远程链路适配器(Remote Link Adapter)
每套Symmetrix的SRDF微码许可证
Symmetrix ICDA之间的链路(ESCON光纤或电信线路)
SRDF的运行独立于主机和主机操作系统,不占用任何主机CPU、主机通道和网络资源。SRDF支持几乎所有主机配置,包括IBM RS/6000,IBM AS/400, IBM ES/9000,HP, SUN,NCR,DEC以及UNISYS,SIEMENS,FUJUTSU等。SRDF 是目前世界上唯一成熟的远程灾难备份解决方案。在全球各地银行,电信等行业有广泛应用,用于生产环境的全球总安装套数达30000多套。
SRDF远程磁盘镜像工作方式有多种,包括同步、异步、多跳、单跳等等。
Time Finder 是EMC又一个重要的存储功能层软件,在容灾系统建设中,它能够为容灾后备中心提供更多的业务价值。在EMC参与建设的许多容灾项目中,SRDF和Time Finder 软件的紧密配合,取得了十分好的应用效果。
EMC 的Time Finder软件是1998年推出的业务持续性解决方案软件。Time Finder 能够在Symmetrix内部对标准数据卷(Standard Volume简称STD)克隆出最多16个数据卷,成为业务连续卷(简称BCV)。BCV和 STD建立对应关系后,Time Finder软件将在后台同步这组对应卷,当BCV和STD完全一致后,可以在任何时刻分离BCV与STD,使BCV成为某确定时刻STD的即时影像。分离后的一个或多个BCV可以被同样连接在Symmetrix内部的其他主机所读写。
分离之后的BCV可以和原来的STD再度连接,可以增量再同步BCV,也可以利用BCV来恢复被破坏的STD。
Time Finder软件解决了在企业关键业务当中常见的多个业务操作要同时访问同一组关键数据集的问题,在没有Time Finder软件之前,这些业务只能顺序进行,而无法并行完成。
最常见的例子包括数据备份,为了不干扰生产系统,只能在半夜几个小时的“备份窗口”期间进行,而当数据量越来越大,一天的业务时间不断增长,备份窗口越来越小时,有时几乎无法完全备份数据。类似的应用还有报表系统、数据仓库的加载系统、应用软件的测试、容灾系统的演习等等。
Time Finder软件的出现,很好地解决了这些威胁业务安全运行的问题,受到十分广泛的欢迎,目前该软件在用户生产环境中已安装超过15000套。
EMC SRDF软件和Time Finder软件在容灾系统当中的集成应用,使容灾后备中心能够对系统代码和基础数据的复制能够作到及时测试,证明其正确性。而对应用数据,Time Finder软件可以使其同时用于应用软件的测试或数据仓库系统的加载。
这样容灾中心在平时,设备能够得到完全利用,同时由于对数据的测试等同于灾难发生时系统的恢复工作,系统的可用性也处于不断验证之中,系统整体可靠性得以进一步加强。
EMC PowerPath软件简介
PowerPath通过多路存取,负载均衡,通道切换,提供信息访问的高可用性,高性能和灵活性。
PowerPath是一个安装在服务器之上,对性能和信息的可用性具有增强功能的数据通路管理软件,确保您的应用可以连续地运行。针对于开放系统平台它集成了故障通道自动切换,动态负载均衡和优化信息访问性能地能力。通过多条通道(最多达32条)增加全面I/O吞吐率,更快地完成更多的任务;通过业界独特的自动负载均衡算法智能地管理多条I/O通道的流量,极大地提高了系统的效率和I/O的吞吐率,避免I/O的瓶颈。而其出色的动态配置功能也减轻了系统管理的负担。同时通过自动故障监测、通道切换、把I/O队列分布到预定的替换数据通道上,保持正常的应用程序运行和信息流,全面提高UNIX和Windows NT及高可用集群环境的可用性和灵活性。

EMC PowerPath 是业界唯一的提供这种多条通道负载均衡能力的软件,正是这种能力使得客户在更短的时间内可以做更多的工作,在相同的时间内可以有更多的客户被服务,更多的应用在运行,更多有利的商业机会被利用。PowerPath 负载均衡特性保证不会发生一条通道非常繁重而其它通道带宽没用被充分利用从而引起I/O瓶颈这种事情。当一条或多条通道变得比其它通道更忙时,PowerPath 就会把繁忙通道的I/O流量转移到其它通道上,进一步加强了已经非常高效的多通道特性的吞吐率。
PowerPath 的自动通道切换和动态恢复特性使得当某一条通道出现故障时,系统允许数据立刻自动的并且不中断的从一条或多条替换通道被访问。这就消除了由于一块控制卡、电缆或通道控制卡失败造成的应用程序中断的可能性。当发生通道切换时,所有已在这条通道队列里的和后续来的I/O请求都会自动的并且是不中断的排到替换通道队列里。关键应用无中断的继续运行,业务保持正常活动。
PowerPath特别适用于集群环境,可以阻止昂贵的操作中断。PowerPath 通道切换功能避免了节点的切换,即使在主节点出现某一通道断开的情况下也能保持应用的无中断操作。
总结
EMC的宗旨是设计最高性能、最高可靠性的产品。SymmetrixDMX产品的目标是保持业务持续性,为业务数据提供足够的安全性。在完成了设计和产品制造以后,系统还需经Design Verification Testing (DVT),Highly Acceserated Life Testing(HACT)和Ongoing Reliability Testing(ORT)几个测试项目的严格测试,以确保用户使用内在质量高度可靠的产品。建立在此高可靠性产品基础上,SymmetrixDMX的体系结构关注于冗余性,以便即使在部件失效这种很少出现的情况下,仍能保证数据可用性,这就是EMC产品所能体现的持续数据可用性。全新设计的SymmetrixDMX系统将存储工业实现的技术水平、I/O性能、数据保护方式等多个方面提升到了一个新的水平!

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

2

添加新评论1 条评论

michael1983michael1983技术总监, 某证券
2018-12-28 16:04
不错的产品技术知识普及,就是DMX3有点过时了
Ctrl+Enter 发表

相关文章

相关问题

相关资料

X社区推广