流程一定要通用,尽量实现场景驱动,一定不要一套系统一个场景对应一个流程,否则难以维护,无法应对千变万化的场景,无法应对日渐增加的灾备系统梳理,更无法应对灾备系统的变更。
比如,典型非双活灾备方案中最简单的流程可以定义为六步:
1. 停止主生产
2. 启动灾备
3. 业务验证
4. 停止灾备
5. 启动主生产
6. 业务验证
每一个大的步骤再按需要进行细分,进一步实现标准化、通用化、自动化、参数化。
工具实现数据维护、操作界面、流程监控、大屏展示、多部门沟通、演练报告和报表等灾备演练相关功能,以及自动化引擎等功能。
工具实现了场景驱动,将每套系统的配置数据与流程步骤数据分开,实现参数化驱动,进一步将流程步骤与脚本分开,实现自动化驱动。
灾备自动化切换流程主要根据业务的系统的架构来制定:主备中心、双活中心、与其他业务系统关联性、是否有专线外联等。切换的流程每个执行单元或者任务需要能够检查,可以配置执行任务+检查任务,同时可以展示;有详细的输出,可定位诊断。流程的维护就需要与平时投产变更相关联,保证切换流程与实际情况一直保持一直。同时做的好的话,可以与CMDB相结合,同步关联,保证与生产环境的一致性,而不是每次真实演练都需多次的模拟演练测试流程。对于工具监控工具检查生产容灾运行情况,是否可切换,以及定位故障,将故障发给容灾管理工具,容灾管理工具根据容灾架构下发给自动任务工具 下午自动切换流程。同时容灾管理工具要能对整体切换流程可展示。
收起