最理想的容灾演练切换方式,是实现“自动化”的容灾演练过程和“自动化”的系统切换 。乃至建立起一整套灾备体系的自动化平台。
当然,要实现所谓的“自动化”容灾切换演练,是一个相当复杂的整合和优化的过程,需要企业通过梳理各业务流程,不断进行演练和总结,才能达到“自动化”的容灾演练。
那么,我们的容灾切换演练究竟能够将“自动化”进行到什么程度呢?下面我们以整个容灾演练的全生命周期即切换前、切换中、切换后三个阶段进行讨论:
1、演练流程自动化:制定自动化的演练指挥系统体系,实现按容灾的切换规程,自动化下发指令,同时可将指令下发与系统操作进行整合。
2、演练审查自动化:对于演练前的系统检查和审批流程,我们可以利用现有的运维自动化工具,对网络环境同步状态、数据库同步状态、应用版本等进行自动化对比。
3、演练切换自动化:通过运维工具和脚本,按照顺序恢复应用系统,切换过程可分为网络、主机系统、数据库系统、存储系统切换等。
4、演练验证自动化:可选择一些无人值守的业务验证,实现自动化验证业务状态的效果,以减少参演人员数量,缩短演练时间。
优缺点分析分析:“自动化”容灾切换的优势在于人工干预少,自动执行,节省了切换过程中的时间和人员成本。同样,“自动化”也带来一定的风险,一旦启动了自动化的切换,过程中如果出现错误就难以控制,人工进行干预困难,而且前期还要投入大量的人力物力进行实践。
容灾演练自动化,这固然是一种很理想的方式,但真正在业务环境中,我想很难实现,至少段时间内,还很难实现,
1,一套复杂的应用系统,数据中心建成后,一切都是新的,怎样测试,切换,都很少会有问题,但是随着业务上线。数据不断进入。代码不断更新,系统开始出现的不确定因素也会越来越多。我们肯能都有过经历给一个旧系统打补丁打出问题的,由于软件兼容性,病毒等各种原因导致一个正常的系统补丁打上去就出了问题,同样,一套开始运行的信息化系统,如果进行容灾自动化的演练,由于自动化程序是按照欲预先系统制定的,但系统中存在的其他问题并不在容灾自动化中的预设中。会因为某些小隐患而出问题,
2.现在,自动驾驶技术已经应用在一些车上了。这也存在一个问题。就是事故定责。同样。容灾演练自动化也一样。在自动化演练中出现了故障。这个责任由谁负责。我想也是很多运维人员考虑的
毕竟电脑是按程序做事。无法应对突发的情况。我想将来最可能好实现的应该是人机结合,人员逐步监控运维的自动化。重复性的,规范性的操作由自动化程序来做。而人员则负责监督所有自动化之前的规范。
收起