存储双活如何管控,如何制定匹配制度?

        关于江苏农信的851120阐述的灾备目的,个人十分赞同,灾备不是为了备份,不是为了实现技术成就,是切实能够实现银行的业务连续性管理目标,我再补充两句,灾备不是建设完毕就完毕了,是要有与之配套的管理手段,是要切实能够使用,在风险发生时能够起到决定作用的。
       关于同城双活技术方案,是以行内业务特性为根本参考进行制定的,因此我们在涉及架构,制定方案时,除却要考虑技术方案,同时重点分析行内业务特性,从而选型,完成实施,对此业内均有可借鉴的内容,厂商也能够提供成熟的方案。
        在我行建设灾备的过程中,我遇到很多令人头疼的问题,而这些问题都跟技术没有太大的关系,借助这次讨论,我希望向已经完成灾备建设,形成成熟管理体制的前辈们讨教下,如何管理灾备中心,如何针对选定的技术方案制定相应的制度,比如我们建设的是存储+应用+DB均能实现双活的架构,我们要如何管理,应该有什么样与之配套的制度?比如我们建设的是存储+应用能实现双活,DB使用ADG(热备)的架构,我们要如何管理,有什么样与之配套的技术?

参与12

4同行回答

bbaimm88bbaimm88系统架构师银行
双活管理的确是个难题,我们也存人手不够,通过补充对口技术人才,执行AB角互备,数据库 、存储、主机、应用负载、网路、安全各司其职;同时我上了一套容灾切换软件专门解决oracle Extend RAC 切换 及AIX个别应用容灾切换;释放DBA排错压力,专注监控定位 ,提供指引;应用切换基于D...显示全部

双活管理的确是个难题,我们也存人手不够,
通过补充对口技术人才,执行AB角互备,数据库 、存储、主机、应用负载、网路、安全各司其职;
同时我上了一套容灾切换软件专门解决oracle Extend RAC 切换 及AIX个别应用容灾切换;释放DBA
排错压力,专注监控定位 ,提供指引;
应用切换基于DNS不需要太多人工干预;
存储双活 建有第三站点来保障仲裁;减少疑难场景仲裁人工分析。

但也只能紧紧满足现状,无法应对互联网金融业务发展,这个要上devops ,推行IAAS解决方案来释放人力压力;

收起
银行 · 2020-03-27
浏览2727
summitsummit联盟成员架构管理岗某城商银行
      为什么今年大家都在提灾备体系建设,主要是银保监发的211号文,要求银行业进行整改,2020年年底前建成符合监管要求的灾备备份系统,2021年所有重要信息系统要具备灾备真实接管生产的能力。2021年底之前要完成重要信息系统至少完成一次真实接管业务的灾备切换演练,且...显示全部

      为什么今年大家都在提灾备体系建设,主要是银保监发的211号文,要求银行业进行整改,2020年年底前建成符合监管要求的灾备备份系统,2021年所有重要信息系统要具备灾备真实接管生产的能力。2021年底之前要完成重要信息系统至少完成一次真实接管业务的灾备切换演练,且在备中心运行一段时间。

  原先进行的模拟切换演练已经不能满足监管对灾备的要求,且业务连续性的开展不只是科技一个部门的要求。目前大部分单位的业务连续性都是科技牵头制定灾难恢复预案和业务连续性咨询,也都是从科技的角度做的IT灾备体系建设,个人认为这部分还是比较容易实现的,你想实现的RTO和RPO,只要单位肯花钱,都是可以实现的;灾备切换演练操作也是跟切换演练系统相关的业务部门的系统相关人员参与的演练,都是在演练科技的IT能力,真正实现真实切换做的工作远不止这些。
  业务连续性还是要从全行的角度去进行规章制度的建设,灾难切换演练也要从全行的角度进行应急和灾难恢复预案的制定,真正能够实现在发生灾难的时候各个部门有条不紊的进行灾难恢复预案的执行。
  我前短时间也发了一个问题“两地三中心双活系统灾备切换场景和数据补录问题”,就是想让我们在灾备体系建设的时候能够在上线前,把涉及到的灾难切换场景都覆盖到,并预测到所有可能发生的问题,并制定相对应的灾难恢复专项预案,真正实现灾难切换的时候能够帮助业务快速恢复。往往发生灾难的时候都是非计划内的灾难恢复场景,所以非计划内的存储和数据库的切换关系到我们的RTO和RPO的时间。
  回到上面的问题,双活数据中心的管理我认为可以从这几个方面去考虑:
  1、双活数据中心的业务系统和基础环境配置的更新问题,建议制定相关的制度保障主数据业务和环境配置更新的时候同时更新也要覆盖同城灾备和异地灾备数据中心,保障每个数据中心的应用、数据库、存储等配置都保持一样的版本。建议上制度的同时上统一发布平台,使发布实现线上化,减少误操作和漏发布情况发生。大家应该都知道不一致可能出现的问题。
  2、数据中心日常运维问题,我个人认为现在数据中心都可以实现远程监控操作和智能化巡检,灾备机房人员配置可以根据各单位人员数量进行轮值安排,主要保障同城灾备中心要有日常值班人员,每周或者每月安排相关基础环境维护人员定期进行机房巡检和问题处理,这个可以根据单位实力去平衡。
  3、IT灾备体系的管理建议建立统一灾切平台,实现预案全部线上化,实时对灾备数据中心的数据库和存储状态进行检查,保障灾备数据中心的可用性。通过灾切平台可以实现快速的一键切换,缩短RTO时间和降低人员的操作风险。
  最后,建立完善的制度的同时,也要保障制度的可行性,能够真正的实现制度的价值,而不是成为纸上谈兵和带来工作上的复杂性。
收起
银行 · 2020-03-27
浏览2519
吕作令吕作令其它A
出于对关键业务容灾,避免业务宕机,保障业务持续可用的目的考虑,很多企业开始兴建双活数据中心,特别是金融行业,对于数据中心的灾备无论是在技术实现还是流程管控上都有很大的挑战。在技术保证数据、业务灾备双活下,健全的人员管理、流程管理更为重要。加强平时运维监管,做好人员...显示全部

出于对关键业务容灾,避免业务宕机,保障业务持续可用的目的考虑,很多企业开始兴建双活数据中心,特别是金融行业,对于数据中心的灾备无论是在技术实现还是流程管控上都有很大的挑战。在技术保证
数据、业务灾备双活下,健全的人员管理、流程管理更为重要。加强平时运维监管,做好人员backup。采用DevOPS,降低手工运维引起的故障风险。加强业务、网络、存储、计算部门功能协作。共同完成双活
中心管控

收起
软件开发 · 2020-04-08
浏览2327
lfherelfhere金融行业高级系统工程师戴尔科技金融行业解决方案中心
灾备建设是一个系统工程,这个工程中最难的不是技术问题,是管理和沟通问题,特别是与非科技背景的高级别领导展示、解释的问题。就像您说的管理问题,很多行采用了类似的技术架构但是采用了不同的管理方法,为什么?因为每个行的情况都不相同,管理很大程度是跟领导风格相挂钩的,要形成...显示全部

灾备建设是一个系统工程,这个工程中最难的不是技术问题,是管理和沟通问题,特别是与非科技背景的高级别领导展示、解释的问题。
就像您说的管理问题,很多行采用了类似的技术架构但是采用了不同的管理方法,为什么?因为每个行的情况都不相同,管理很大程度是跟领导风格相挂钩的,要形成有效的管理不能简单看别人穿什么衣服的问题,大多数时候是需要量体裁衣。这也是为什么很多行在做灾备咨询。除了专业技能,咨询更多的是帮助沟通。

收起
IT其它 · 2020-03-27
浏览2571

提问者

skey_deng
系统运维工程师某农商业银行股份有限公司
擅长领域: 存储灾备双活

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2020-03-22
  • 关注会员:5 人
  • 问题浏览:5463
  • 最近回答:2020-04-08
  • X社区推广