在真实生产环境中,存储故障的发生往往很很复杂,如何决策是进行本地解决故障还是立马进行容灾切换?
收起这个问题属于业务连续性管理范畴,可以从三个方面来考虑:
1、管理规范方面。按照业务连续性管理规范,应该建立应急管理领导小组和制定各类业务系统、关键设备故障恢复应急预案。当故障发生时,由应急管理领导小组根据故障实际情况,按应急预案下达灾难恢复指令并实施。因此,一定要按照业务连续性管理相关的国家标准和监管指引提前建立并不断完善应急预案及相关制度流程,开展常态化演练持续提升应急能力。
2、应急处置方面。目前业界有十分成熟的业务连续性方法论可供参考,也有许多领先厂商可以提供咨询服务。针对应急处置方面来说,一般涉及损害评估、事件定级、处置建议、处置决策、灾难宣告及切换恢复等环节。应该按照应急管理规范和流程,提前制定与各类灾难相应的应急预案。
3、存储容灾方面。发生故障时存储如何应急,涉及容灾技术架构、应急处置能力、存储承载的业务影响范围等诸多方面内容。具体到本话题,判断选择本地修复还是容灾切换,RTO是其最重要的技术指标,即选择两套应急方案中恢复业务系统所需时间较短者。需要注意的是,此RTO是指恢复业务系统的所需时间,而不仅是恢复存储功能时间。