灾备系统数量多,如何保证RTO基础上,既要做到灾备切换过程可控还要提高沟通效率,需求分析应该如何做?

考虑到场景复杂,灾备系统数量多,在确保RTO基础上,既要做到灾备切换过程可控,满足多种容灾场景,还要提高跨部门沟通效率,因此对平台建设的需求分析如何做?

参与10

2同行回答

baidongxubaidongxu  系统工程师 , 中国民生银行科技开发部
RTO保障方面可以根据以往的灾备切换经验评估整体和各种场景的切换时间,如果RTO无法保证,可以将业务系统分模块切分,并行切换,同时保证现有模块直接的依赖关系,缩短RTO。在灾备建设初期就要进行容灾场景设计,容灾场景覆盖大多数真实灾难情况,通过模块化的流程编排满足容灾场景的...显示全部

RTO保障方面可以根据以往的灾备切换经验评估整体和各种场景的切换时间,如果RTO无法保证,可以将业务系统分模块切分,并行切换,同时保证现有模块直接的依赖关系,缩短RTO。
在灾备建设初期就要进行容灾场景设计,容灾场景覆盖大多数真实灾难情况,通过模块化的流程编排满足容灾场景的切换。
灾备建设的一项目标就是提高人员参与程度,降低沟通成本,灾备指挥平台需要实现日常切换过程需要的功能比如集合签到,公告栏,工作台等,对于不同用户设计不同展现视图。

收起
银行 · 2019-05-23
浏览1989
njtukangnjtukang  项目总监 , 股份制商业银行
1、结合个人的经验,在灾备系统数量较多的情况,应该以业界连续行管理理论作为指导,首先从业务角度进行分级管理,高等级应用优先保证回复,例如达到几十分钟级别,低等级应用可以容忍恢复时间,在几天内完成2、对于灾容场景复杂,场景较多的情况,如果每个都制定预案,预案多,演练多,成本高。...显示全部

1、结合个人的经验,在灾备系统数量较多的情况,应该以业界连续行管理理论作为指导,首先从业务角度进行分级管理,高等级应用优先保证回复,例如达到几十分钟级别,低等级应用可以容忍恢复时间,在几天内完成
2、对于灾容场景复杂,场景较多的情况,如果每个都制定预案,预案多,演练多,成本高。依据个人经验,应进行场景和故障域的整合,例如如果存在整体服务器恢复的预案,则可以不需要过多考虑服务器内部某个组件的故障场景。如果做到一个机房模块的快速切换,可能就需要过多考虑一排机柜的故障。如果做到数据中心级别的快速切换,则不需要针对单独一个机房的故障。

收起
银行 · 2019-05-23
浏览1944

提问者

wanggeng
系统运维工程师某银行
擅长领域: 服务器存储数据库

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2019-05-14
  • 关注会员:4 人
  • 问题浏览:2790
  • 最近回答:2019-05-23
  • X社区推广