苏海涛
作者苏海涛2020-05-18 09:54
副总经理, 银行

新冠疫情下对银行数据中心应急管理的思考

字数 3181阅读 1196评论 0赞 1

作者:涛声依旧

敬畏与反思

2020年伊始,一场席卷全球的新型冠状病毒疫情席卷了全球很多国家,给包括中国在内的世界各地人民的生产及生活都造成了巨大的影响。全球瞩目的新锐历史学家尤瓦尔•赫拉利在他的著作《未来简史》中用数据、事实和推理告诉我们,人类已经战胜了曾经的三大挑战:饥饿、瘟疫、战争。现在看来,赫拉利有些高估人类了。毫无疑问,本次疫情在全球迅速蔓延的严酷现实需要我们深刻的反思,并要永怀对自然和生命的敬畏之心。

▲ 根据世卫组织统计数据,截至欧洲中部夏令时间5月17日18时42分,全球确诊新冠肺炎4534731例,死亡307537例。(图片来源:新闻联播)

春节过后,复产复工

春节过后,疫情防控形势依旧非常严峻,根据国家各级部门对复产复工的防控要求,银行主要采取了交错排班、缩短营业时间、临时关闭网点等防控措施。随着社会各界相继复工,金融服务需求逐渐回归常态,几个月以来,疫情防控对人们生活的习惯、办理业务的习惯或多或少产生某些影响,部分原线下习惯的客户已经习惯线上,这在一定程度上减缓了线下网点压力,但随着线上业务量的增长、线上客户群体结构的变化,对线上系统承载能力及稳定性均提出更高的要求,也对线上系统支持的业务范围与用户体验也提出新的要求。公众与市场对金融机构在突发疫情下的保障服务水平形成新的预期。对银行而言,确保突发疫情下能够快速进行应急应对与业务恢复,维持符合公众与市场预期的服务水平,避免影响社会与金融稳定,这一能力的构建显得刻不容缓。

临近两会,运行保障

时间飞逝,转眼五一假期已过,临近两会召开之际,来自监管的“重保”要求也随之而至,保障信息系统安全稳定运行是重中之重。正所谓“居安思危,思则有备,有备无患”,要做好保障工作,尤其是如何有效应对信息系统突发事件,这就需要我们持续加强应急管理,细化应急场景,完善应急预案。首先是要识别和定义应急场景,然后才是有针对性的制定相应的应急预案,由此可见,全面准确的识别并定义应急场景是有效应急处置工作的前提,但了解下来,部分银行对重大疫情场景下的信息系统突发事件应急预案之前考虑的并不完备,甚至并没有仔细认真的思考并专项设计过。所以就再看看《商业银行业务连续性监管指引》(银监发[2011]104 号)(以下简称“104”号文)中对重要业务运营中断事件的定义。

监管要求,分析解读

在104号文第一章 总则 第四条中对重要业务运营 中断事件的定义,包括了四个方面,分别是:

信息技术故障。 信息系统技术故障、配套设施故障: 这也是银行信息系统IT基础架构规划设计最为基本的要求,即防范规避信息系统故障,保障信息系统安全稳定运行。通常是通过高可用架构来实现,要消除SPoF (Single Point of Failure),传统的高可用架构,一般是通过主备、集群或负载均衡技术实现信息系统的高可用架构。因涉及各个技术栈的不同层面,采用技术手段也不尽相同,传统“IOE”技术架构与互联网开源技术架构也有不同,这里先不做具体展开。

外部服务中断。 具体可参见《银行业金融机构信息科技外包风险监管指引》银监发[2013]5号。这也是这几年监管检查与评级的重点之一。

人为破坏。 人为破坏具体可分为外部和内部。内部人为破坏,更多的是非主观操作失误,例如因变更实施导致的生产事故。而外部人为破坏,104号文中描述的“黑客攻击“等,隶属网络信息安全防护范畴,这几年持续开展的护网行动,就是防范该类风险、加强信息安全风险处置能力的具体举措,更是国家应对网络安全问题所做的重要布局。104号描述的”恐怖袭击“,具体仍可从防范楼宇级风险入手,即根据监管要求开展重要信息系统同城灾备系统建设。

自然灾害。 104号文中谈到了火灾、雷击、海啸、地震、重大疫情等,其中火灾、雷击尚属楼宇级灾难,亦可通过同城灾备系统保障重要信息系统业务连续,但海啸或地震就比较严重了,局部地理区域可能都会受到严重影响,所以监管层面对银行提出异地灾备建设的要求。

重大疫情场景

这里重点说一下重大疫情场景。本次疫情突如其来,形势演变至今,已成为全球各国共同面临的重大挑战。这场疫情为行政、医疗、卫生等公共服务体系和几乎所有国民经济行业带来一次“大考”。金融行业并非受疫情直接影响最严重的行业,但由于**国内银行业多年未经历过如此大规模系统性考验,以及肩负在疫情中护航经济运行的使命,银行务必保持良好的业务连续性和强执行力。**因此,要以此为契机,完善更具时效性、可行性、联动性、系统性的应急预案,进一步提升业务连续性管理能力。

■ 开展BIA业务影响分析

在这次疫情发生后,需结合重大疫情场景,有针对性开展一次全面的RA风险分析和BIA业务影响分析,对可能受疫情影响的业务与管理活动,确定一个基本框架,一旦出现突发隔离情形,可以快速决策部署。在BIA的基础上明确相应应急场景对应的RTO和RPO。对BIA业务影响分析工作的开展,有相应的方法论和工具,这里篇幅所限不做展开。

■ 完善BCP业务连续性计划

区分不同疫情场景,整合可用资源,构建针对性的业务连续性计划,完善应急预案,尤其需重点制定以下事项安排:一是要细化明确在有限的防疫、人力、保障资源情况下的业务恢复优先次序;二是要落实业务连续性计划,在总体统筹下,制定服务保障(允许服务降级)措施、非接触式服务启用、非现场办公模式启用、替代服务渠道启用、电子服务渠道引导、业务流程调整等具体应急预案;三是要结合疫情防控的主动隔离要求,灵活采用模拟性、实战性等多种形式制定业务连续性计划及应急预案的演练测试安排。

■ 细化应急预案

加强应急管理,细化疫情防控场景下的应急预案,针对特定场景有效组织应急演练是数据中心疫情防控工作中不可或缺的一环。所有的预案不仅要做到场地设备、人员角色、响应流程、技术工具的全覆盖,要考虑到银行数据中心多地多中心的特点,以及疫情防控场所隔离要求等情况。要充分考虑极端情况可能带来的运维风险,设定不同的应急场景并制定相应的应急预案,确保数据中心在疫情紧急突发情况下能够迅速、有序地开展应急工作,控制和防止事故进一步恶化。

■ 开展实战演练

针对疫情防控特点及要求,开展实战演练,充分验证数据中心应急响应机制,检验应急预案的有效性,时效性、应急流程的可行性及整体方案的完备性。

▲ 恒丰银行实施疫情防控实战演练(图片来源:中国经济网/恒丰银行总行公众号)

■ 建立“零信任”安全架构的远程协同平台

举国上下几个月的疫情防控,各地采取延迟复工、隔离管制等疫情防控措施,给大家的生活及工作方式也带来了很大的影响。最初的复产复工也是要避免人员聚集,保持社交距离,因此更多采用远程办公和协同的方式。在疫情防控特殊时期,银行数据中心为保障生产安全稳定运行,尤其是应急响应、处置、协同,通过有效的工具平台来保障接入安全、协同有效、数据安全、操作安全。即需要构建“零信任”安全架构的远程协作平台,通过远程VPN接入,严格集中访问控制,在安全合规的基础上,实现远程安全登入,利用双因素认证,按照最小授权、按需开通、从严审核、及时关闭等要求,进行用户访问控制,加强事前审核审批、事中实时监控与事后合规审计。采取加密传输、数据不落地访问等措施防范数据泄露风险,确保运维操作事前可审、事中可控、事后可查。满足疫情防控期间现场与居家、本地与异地协同运维操作应急处置需求,为异常情况快速有效有序的应急响应创造有利条件。

■ 多措并举,确保业务持续运营

通过管理(业务连续性管理、应急管理)和技术手段(工具平台), 有效应对重大疫情场景对银行的影响与威胁,保障银行数据中心的人员安全、业务连续性和信息系统安全,持续提升数据中心运行保障能力,确保银行业务系统持续运营。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

1

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章