核心观点:以战略,全局的眼光来建设灾备系统;以运动,发展的思想来维护灾备系统;以制度流程,测试演练来保障灾备系统效
能。
对灾备系统的建设,不管是从行业监管的要求,还是从各机构自身业务安全的角度出发,大家都是不吝于花费大把银子的。现
实情况是灾备系统很多时候没有起到预期的效果,或是不能实现建设时的业务目标,或是在实际切换过程中出现这样那样的问题。
因此如何建设和运维好灾备系统,确保灾备系统可用,可靠是我们一直都在思考的事情。
灾备系统如何建设首先需要拿到公司战略层面来考量,说白了还是人和资源的问题;然后要从业务全局上进行分析,审慎决策
各灾备中心的业务涵盖面与分布策略,制定明确的灾备业务目标,界定好灾备责任的业务边界,灾备处置的各个条线的职责。灾备
系统解决的是业务的活,需要技术来支撑,技术上的全局通盘考虑是根本,个人认为简单实用是最重要的,要做到快,准,狠确实
是不容易,而且灾备系统的建设涉及到的技术层面实在是太多,整个灾备中心涉及到许多的子系统,每个子系统涉及到的网络,存
储,主机,操作系统,数据库,中间件,应用都要考虑到整体解决方案里。
这里有一个难点是软件范畴的单点故障,以应用来举例,不管有多少的运营中心,同构的应用系统软件故障可能导致系统整体
问题。因此,对核心或重要的应用系统而言,可能还要考虑应用异构容灾。这可能倒逼我们对整体解决方案进行一定规模的调整。
就维护工作而言,我觉得应该坚持一个运动与发展的思想,并且要在公司整体上要有这种思想。灾备系统的建设不是一锤子交
易,业务本身是不断发展变化的,系统本身是处在不断的升级更新过程中,灾备系统也是在不断的运动当中,不管灾备系统是什么
模式,当下的系统变更需要同步考虑变更灾备系统,并确保变更后的可靠性,同时对业务发展的前瞻性考虑也应激发对灾备系统未
来可能调整的考虑与设计。实际运维中可能会用到一些自动化平台,全面所述的变更还需要同时变更自动化流程的设计以及相应的
功能单元执行内容。一个运动的人需要集中注意力才能避免摔倒,一个运动的系统也需要你时刻把目光聚焦给它。
灾备系统建起来了,如何保障可靠性,在关键时候能顶的上?在真正需要决策的时候,可以很明确且信心十足的告诉领导“可
以切,没问题”。这真是一个沉重的话题。除了多操练以外办法真的不多。当然前提是要有明确的制度与责任落实,要执行严密,
细致,明确的操作流程。实战演练,沙盘推演... 各种方式如何搭配见仁见智,相信大家也经常的折腾,落下过一地的汗水。
这里主要提了我的一些感触,不一定正确,有好多方面也没有提及,算是抛块砖,希望能学习到宝贵的意见。
收起