1、首先RTO("Recovery Time Objective")和RPO("Recovery Point Objective")是两个关键指标,
RTO(恢复时间目标)是指在发生系统故障或灾难事件后,恢复业务运作所需的时间。也就是说,RTO是指从系统中断到恢复正常运作所需的最长时间。RTO的设定根据业务的需求和可接受的风险水平来确定。较短的RTO意味着业务中断的时间较短,需要更快地恢复业务运作。
RPO(恢复点目标)是指在系统故障或灾难事件发生前,系统数据的恢复点。也就是说,RPO是指在发生故障或灾难之前,数据备份的时间点。RPO的设定取决于业务对数据丢失的可接受程度。较小的RPO意味着数据丢失的时间较短,需要更频繁地备份数据。
2、在系统建立前要根据系统的重要性和影响面定义这两个指标,然后按照目标去设计对应的方案。
3、系统上线前应做一次验证,以测试是否达到预期值;
4、系统运行后,需定期(至少1年一次)进行宕机应急演练,随着数据的增多和复杂性的增加,这两个指标在环境不变情况下会增大,需要根据演练结果不断调整相关策略。