灾备自动化切换设计该如何处理人工与自动化环节?

在灾备自动化切换平台设计时,在处理机制方面如何设计自动化处理与人工处理环节,防止因误判或误操作导致灾难性后果?显示全部

在灾备自动化切换平台设计时,在处理机制方面如何设计自动化处理与人工处理环节,防止因误判或误操作导致灾难性后果?

收起
参与10

查看其它 1 个回答baidongxu的回答

baidongxubaidongxu  系统工程师 , 中国民生银行科技开发部

由于我们的灾备架构设计,我们的首要目标是保障切换成功条件下尽量缩短切换时间,所以我们把灾备步骤最大程度的自动化,部分必要的业务验证等步骤是人工步骤,其余涉及网络,存储,中间件,操作系统,数据库,应用的动作都是自动化步骤。
您提到的误判和误操作,我的理解可能出现在平台本身,数据准确性和自动化步骤上面:
平台方面:平时灾备指挥平台会对业务系统”加锁”,当切换之前需要“解锁”才可以切换,并且切换之前需要输入具体业务系统的切换验证码,选择切换场景等数据后会发送确认可以切换的任务到流程发起人的工作台,在工作台确认后切换流程才真正执行。
数据方面:平时做的桌面演练会把要执行的命令和数据打印出来,技术负责人和运维负责人可以登录指挥平台系统核对。
自动化步骤:自动化步骤由可能出现的问题包括操作之前,之后的状态确认和脚本本身的逻辑问题,这种问题只能通过咨询运维经验丰富的砖家规避风险,比如在灾备站点服务器加载服务ip之前需要判断ip是否可以Ping通,自动化脚本的执行需要满足密等,多次执行对系统无负面影响。

银行 · 2019-05-23
浏览1503

回答者

baidongxu
系统工程师中国民生银行科技开发部
擅长领域: 灾备两地三中心服务器

baidongxu 最近回答过的问题

回答状态

  • 发布时间:2019-05-23
  • 关注会员:3 人
  • 回答浏览:1503
  • X社区推广