灾备系统建设,运维与保障的一些思考

核心观点:以战略,全局的眼光来建设灾备系统;以运动,发展的思想来维护灾备系统;以制度流程,测试演练来保障灾备系统效能。    对灾备系统的建设,不管是从行业监管的要求,还是从各机构自身业务安全的角度出发,大家都是不吝于花费大把银子的。现实情况是灾备系统很多时候没...显示全部
核心观点:以战略,全局的眼光来建设灾备系统;以运动,发展的思想来维护灾备系统;以制度流程,测试演练来保障灾备系统效
能。

    对灾备系统的建设,不管是从行业监管的要求,还是从各机构自身业务安全的角度出发,大家都是不吝于花费大把银子的。现
实情况是灾备系统很多时候没有起到预期的效果,或是不能实现建设时的业务目标,或是在实际切换过程中出现这样那样的问题。
因此如何建设和运维好灾备系统,确保灾备系统可用,可靠是我们一直都在思考的事情。

    灾备系统如何建设首先需要拿到公司战略层面来考量,说白了还是人和资源的问题;然后要从业务全局上进行分析,审慎决策
各灾备中心的业务涵盖面与分布策略,制定明确的灾备业务目标,界定好灾备责任的业务边界,灾备处置的各个条线的职责。灾备
系统解决的是业务的活,需要技术来支撑,技术上的全局通盘考虑是根本,个人认为简单实用是最重要的,要做到快,准,狠确实
是不容易,而且灾备系统的建设涉及到的技术层面实在是太多,整个灾备中心涉及到许多的子系统,每个子系统涉及到的网络,存
储,主机,操作系统,数据库,中间件,应用都要考虑到整体解决方案里。

    这里有一个难点是软件范畴的单点故障,以应用来举例,不管有多少的运营中心,同构的应用系统软件故障可能导致系统整体
问题。因此,对核心或重要的应用系统而言,可能还要考虑应用异构容灾。这可能倒逼我们对整体解决方案进行一定规模的调整。

    就维护工作而言,我觉得应该坚持一个运动与发展的思想,并且要在公司整体上要有这种思想。灾备系统的建设不是一锤子交
易,业务本身是不断发展变化的,系统本身是处在不断的升级更新过程中,灾备系统也是在不断的运动当中,不管灾备系统是什么
模式,当下的系统变更需要同步考虑变更灾备系统,并确保变更后的可靠性,同时对业务发展的前瞻性考虑也应激发对灾备系统未
来可能调整的考虑与设计。实际运维中可能会用到一些自动化平台,全面所述的变更还需要同时变更自动化流程的设计以及相应的
功能单元执行内容。一个运动的人需要集中注意力才能避免摔倒,一个运动的系统也需要你时刻把目光聚焦给它。

    灾备系统建起来了,如何保障可靠性,在关键时候能顶的上?在真正需要决策的时候,可以很明确且信心十足的告诉领导“可
以切,没问题”。这真是一个沉重的话题。除了多操练以外办法真的不多。当然前提是要有明确的制度与责任落实,要执行严密,
细致,明确的操作流程。实战演练,沙盘推演... 各种方式如何搭配见仁见智,相信大家也经常的折腾,落下过一地的汗水。

    这里主要提了我的一些感触,不一定正确,有好多方面也没有提及,算是抛块砖,希望能学习到宝贵的意见。收起
参与15

返回zp_ccc的回答

“答”则兼济天下,请您为题主分忧!
zp_ccczp_ccc高级技术主管国内某金融科技公司
软件兼容性问题如何解决呢?
互联网服务 · 2013-07-03
浏览2578

回答者

zp_ccc
zp_ccc1615
高级技术主管国内某金融科技公司
擅长领域: 存储灾备服务器

zp_ccc 最近回答过的问题

回答状态

  • 发布时间:2013-07-03
  • 关注会员:1 人
  • 回答浏览:2578
  • X社区推广