【核心议题1】容灾演练隐患剖析

容灾切换演练,是一项将管理与技术相互紧密结合系统工程,容灾系统能在紧急时刻保障业务连续性,但企业在容灾演练准备、容灾演练切换等过程中存在诸多隐患;如何发现隐患、消除隐患所带来的风险,是需要我们讨论的问题,以下梳理了五种隐患,抛砖引玉,欢迎大家继续提出,以消除我们在容灾演练工作中的各类隐患。

隐患之一:容灾组织建设不健全

容灾团队需要有一个包括决策组、执行组、行政组的完整组织机构。需要有团队组织和完成日常管理、预警、演练、测试、培训等工作。

但很多企业建成容灾中心后,维护的工作量增加很多。但却忽视了要增加相应的维护人力资源,致使系统切换的执行人员保障不到位;再者,当发生灾难时,由于决策成员对于容灾中心的关注度不够,无法做出决策;行政组更是形同虚设,诸如人员调配、信息发布和公共关系等工作,都只能由技术部门完善。

隐患之二:缺乏预警流程

企业当面对灾难时,很难严格按照预警流程执行,往往各个部门乱作一团,缺乏响应的预警流程机制,使容灾系统无法起到应有的作用。

结合演练工作将预警流程可以分为以下几个主要步骤:风险上报--风险评估--风险决策--风险告知--发起系统切换。

1、风险上报主要包括风险信息获知、收集、上报。风险获知后,应验证风险的真实性,完整性。

2、风险评估需要容灾团队根据上报资料做出全面评估,必要时形成评估报告,应包括造成灾难的几率、影响程度、发展趋势等。

3、风险决策需要领导组根据风险评估报告决定后续的处理,包括是否提前启动切换,进入风险警备状态。

4、风险告知需要行政管理组将有关风险的信息及时对内对外发布,保持消息沟通顺畅。

5、系统切换过程是在领导组在做出切换系统的决策后,按照应急预案和相关操作手册直接进入灾难恢复启动步骤。

隐患之三:容灾演练流于形式

企业没有建立起完善的容灾演练机制,容灾演练利于形式,没有形成针对各灾难场景行之有效的演练模式。

容灾演练不仅要检验灾难恢复流程的有效性,而且也要验证容灾系统是否能够实现正常的切换和回切。容灾演练的主要步骤应至少包括:制定演练计划、审批、演练启动、消息发布、演练切换、业务验证、演练回切、总结等。

在容灾演练切换过程中,应详细记录各个重要环节的时间点,并分析切换演练是否能够达到容灾系统和生产系统的各项指标。在演练后应及时总结经验,对发现的问题应及时解决,修改或优化演练的应急流程,完善演练应急预案。

隐患之四:容灾测试不及时

如果对容灾系统的数据、功能、性能等方面没有充分的测试验证,就难以保证容灾系统实现数据保护和业务接管的功能。

进行测试时,尽可能采用测试脚本,避免人为误操作。测试环境尽可能与生产系统隔离。在不发生系统变更时,最好每月测试一次,否则须即时测试。

隐患之五:没有做好容灾培训

通过容灾培训,可确保相关人员及时准确地了解容灾系统结构,熟悉测试、演练、灾难恢复流程,明确自身职责,使沟通、协作顺畅,提高工作技能和灾难应对能力。

培训计划由执行组与人力资源部门共同制订和执行。培训内容主要包括:容灾基础培训、容灾流程培训、容灾技术培训等。

以上所述的五个方面的隐患,任何一个环节的缺失都可能致使容灾中心形同虚设。养兵千日,用兵一时。所以任何一个环节都不能忽视。


如果你觉得还有其他方面的隐患,可以继续发出来,大家一起探讨。

参与36

6同行回答

pysx0503pysx0503系统工程师第十区。散人
       身有同感,感觉很多时候容灾演练我们所担心的并不完全是技术问题,而是由于管理问题,资金问题,人员配备问题等等原因造成的整个容灾演练团队不足以应付庞大而复杂的容灾系统。      很多企业在运行稳定后逐渐缩减运维部门人员,...显示全部

       身有同感,感觉很多时候容灾演练我们所担心的并不完全是技术问题,而是由于管理问题,资金问题,人员配备问题等等原因造成的整个容灾演练团队不足以应付庞大而复杂的容灾系统。

      很多企业在运行稳定后逐渐缩减运维部门人员,缩减运维资金投入,一种飞鸟尽,良弓藏的感觉,在这种情况下,在勉强开始把容灾演练推给IT运维部门,主观的认为这是IT运维部门的事,缺少整体团队配合。缺少领导的执行力,最终导致多种问题出现在容灾演练中。

收起
系统集成 · 2017-03-28
浏览2430
haizdlhaizdl技术经理大连
其实对于容灾本身来讲,这是不仅仅是一个技术问题,更是一个考验组织、管理、流程的重要场合。一、容灾架构。这是个技术问题,也是个成本问题。我们可以从技术角度将容灾架构打的坚实一点,先进一点,避免问题出在技术架构本身上。比如说选择什么样的数据复制架构,什么样的网络双活...显示全部
其实对于容灾本身来讲,这是不仅仅是一个技术问题,更是一个考验组织、管理、流程的重要场合。

一、容灾架构。这是个技术问题,也是个成本问题。我们可以从技术角度将容灾架构打的坚实一点,先进一点,避免问题出在技术架构本身上。比如说选择什么样的数据复制架构,什么样的网络双活架构,什么样的应用负载架构等等。

二、容灾切换。首先这个容灾切换从技术上是否可行?RTO&RPO分别能保障到什么程度。然后对于切换本身来讲是否执行过或者验证过,验证的场合和真实的场合有哪些差异,做过哪些差异分析。

三、切换决策。这是个管理科学和决策科学。容灾切换的判定标准,容灾切换的流程设置,容灾切换的管理体系等直接决定灾难判定的准确率及时率,直接决定容灾决策和实施之间的时间效率。

以上...........

收起
银行 · 2017-03-31
浏览2413
zwz99999zwz99999系统工程师dcits
ls 都已经回答很好了,说到底容灾演练主要是检验容灾的可用性,在生产中心出现问题时,灾备中心是否能及时正确接管,实现业务连续性和数据零丢失,中间涉及很多环节和部门的配合的显示全部

ls 都已经回答很好了,说到底容灾演练主要是检验容灾的可用性,在生产中心出现问题时,灾备中心是否能及时正确接管,实现业务连续性和数据零丢失,中间涉及很多环节和部门的配合的

收起
系统集成 · 2017-03-31
浏览2433
myciciymyciciyIT顾问某金融科技公司
说到底还是对灾备不重视导致的,风险意识不强烈。容灾演练对于科技部门来说仅仅是一个组成部分而已。真要行内部门联动搞一次,需要上层同意协调才行。显示全部

说到底还是对灾备不重视导致的,风险意识不强烈。容灾演练对于科技部门来说仅仅是一个组成部分而已。真要行内部门联动搞一次,需要上层同意协调才行。

收起
银行 · 2017-03-31
浏览2372
kakakaiikakakaii项目经理某国企集成商
楼主太谦虚了,你这已经是玉了显示全部

楼主太谦虚了,你这已经是玉了

收起
系统集成 · 2017-03-28
浏览2320
santy1983santy1983产品总监成都云祺科技有限公司
是否可以用一种方式让IT运维部门可以方便简单的进行灾难恢复演练呢?并不是真的切换,只是模拟故障、流程、切换、验证。这样所牵涉的部门就不多,而且可以达到比较好的演练验证效果;比如在虚拟化环境里面,隔离出一个网络来,在这个网络里去模拟业务系统的故障、演练等,这样是否落地...显示全部

是否可以用一种方式让IT运维部门可以方便简单的进行灾难恢复演练呢?并不是真的切换,只是模拟故障、流程、切换、验证。这样所牵涉的部门就不多,而且可以达到比较好的演练验证效果;比如在虚拟化环境里面,隔离出一个网络来,在这个网络里去模拟业务系统的故障、演练等,这样是否落地的可行性更高些!!

收起
软件开发 · 2017-03-31
浏览2296
  • 可以的,利用桌面演练对整个容灾切换的预案做一次理论性验证,一样可以在不同程度上检验容灾恢复的预案是否合理,进而找出问题和差距。
    2017-03-31

提问者

qq373793057
系统工程师某银行
擅长领域: 存储灾备分布式系统

问题来自

问题状态

  • 发布时间:2017-03-28
  • 关注会员:11 人
  • 问题浏览:7645
  • 最近回答:2017-03-31
  • X社区推广