昼者
作者昼者课题专家组·2022-12-09 10:33
技术经理·某省农信

银行生产关键系统存储架构设计及建设落地实践经验分享

字数 4255阅读 4469评论 2赞 9

一、【摘要】

存储架构升级的关键在于平稳投产落地。没有最好的存储技术,只有最适合的存储解决方案。在存储架构方案设计时,需从行内实际情况出发,对标行业最佳实践,充分利用厂商资源,做好技术的延续性、做好架构、产品、性能、维护和费用之间的有效平衡。

关键系统存储架构设计阶段,应重点关注存储类型、容量、组网及高可用容灾等关键点。在投产实施及运维管理阶段,需关注现网调研、实施窗口、数据迁移、回退方案、投产跟踪和常态化演练机制、日常运维机制、智能运维工具和健全运维生态等重点方面。

存储架构升级的关键在于平稳投产落地。关键系统作为企业IT系统中,重要程度最高、范围涉及最广、业务数据最多、场景差异最大的应用系统类别,对存储架构的设计及落地带来了较大的挑战。本文通过阐述银行业关键系统存储架构的应用场景、设计原则、投产实施及运维管理等重点内容,让读者对银行业关键系统存储的落地实践情况有所了解。

二、银行业关键系统对存储的需求场景及功能特点

一般来说,银行业按照应用系统重要等级可以分为核心、重要、外围及管理、数据分析等类别,其中核心及重要类系统通常称为“关键系统”。根据关键系统处理事物的特性,可以分为OLTP(联机事务处理过程)和OLAP(联机分析处理)等类别。联机事物处理方式、数据量大小、系统重要程度等差异均会对关键系统存储架构提出不同的需求。

三、关键系统存储架构的设计原则及关键点

1.关键系统存储架构设计的原则

存储架构的设计既要满足未来业务发展需要,技术发展趋势,也要在总体技术风险可控的前提下,对现有架构进行平滑升级,解决当前架构瓶颈。关键系统所用存储架构的建设总体原则应根据不同应用对存储性能和容灾的诉求进行存储选型。按应用的业务重要性及对RPO、RTO不同要求,重新规划应用主机和存储对应关系,对应不同级别容灾方案。

需要注意的是,没有最好的存储技术,只有最适合的存储解决方案。因此,在存储架构方案设计时,需从行内实际情况出发,对标行业最佳实践,充分利用厂商资源,做好技术的延续性、做好架构、产品、性能、维护和费用之间的有效平衡。

2.关键系统存储架构设计的关键点

2.1存储类型
按照关键系统类别及特性选择集中式或分布式存储,可根据关键系统重要性、需求特点及性价比选择全闪、混闪及传统机械盘存储。

2.2 存储配置及容量
存储的单机配置决定着存储架构的整体性能。通常在存储架构规划时采用“高端低配”(高端机型、中低配置)策略进行存储选型,在保障技术先进、性能强大的同时,降低维护期因存储技术落后、性能不足而带来的优化和扩容等风险较大操作的频率,同时高端机型也能够得到原厂商更大售后服务支持。所替换的老旧存储可用于开发测试或外围类系统使用,保护既有投资。

容量规划方面,根据现网存储容量、历史增长率以及未来增长率等指标来综合评估。以存储池为单位,根据当前容量大小,将近3年最大年增长率作为未来5年年均增长率进行估算,在此基础上再预留20%-30%可用容量。

2.3存储及应用组网
在满足技术先进性的前提下,保障技术选型稳定性和高可用性,确保存储网络架构稳健、保障业务系统性能。在实施过程中以数据完整性为核心保障体系,按计划完成容灾方案为目标,尽量减少业务系统影响,降低对业务系统的影响。

根据设备情况,从需求、容量、性能、可用性和管理性几个方面详细设计,重点考虑存储池类别、吞吐负载、关联耦合性,尤其需要提前规划交换机端口分配规则、Zone分配规则、跨数据中心级联设计。

2.4高可用及容灾
存储架构是全行容灾方案的重要基础。存储架构方案的设计需要根据全行整体容灾建设思路,结合存储特性和业务特点统筹规划,以确保满足监管及全行所需RTO及RPO指标。在实际制定存储规划方案中,有以下方面需重点关注。

一是存储3DC架构的建设思路。存储3DC架构已是各大存储产品的标准功能架构,也是各行业容灾方案中均采用的成熟存储容灾解决方案。但在实际使用中,需根据各行现网容灾架构、数据中心间距离、空间、带宽质量、人员分布等因素综合考虑。

一般来说,存储3DC架构在物理地点设置上有两种方案,一是本地、同城和异地各一台存储,三者间形成3DC容灾架构(性价比较高、容灾整体架构较为灵活);二是本地(2台双活)和同城(1台)组成容灾架构(维护难度较小,可以最大程度应对本地主中心存储故障),架构图示例见图一。

二是各数据中心承载容灾功能的选择。在金融监管部门要求及传统银行容灾方案中,主中心、同城中心及异地中心根据所承载的容灾功能情况,可以分为“大同城、小异地”和“小同城、大异地”。以“大同城、小异地”为例,“大同城”指以双活模式构建两个同城数据中心,通过部署必要的软硬件设备,逐步实现既能两个中心共同承担业务,又能单个中心独立承载全部业务。“小异地”指建立异地灾备数据中心,在发生区域性灾难时,保障金融机构关键业务的持续运营。

三是存储网络组网。优化烟囱式架构,FCSAN网络采用core-edge架构,通过分层实现计算、存储资源池化,更利于向云化演进。存储池间数据互联互通,应用共享所有存储资源。SAN及应用组网架构图示例见图二。

四是高可用及容灾方案的选择。容灾体系规划应该从业务视角为出发点,以终为始的制定各类业务系统RTO和RPO,找准各容灾技术定位,通过各容灾技术组合做好备份冗余,按照业务类别和技术特性搭好容灾技术体系框架,做好容灾技术顶层设计。
图一:同城3DC存储容灾架构图

图一:同城3DC存储容灾架构图

图二:SAN及应用组网架构图

图二:SAN及应用组网架构图

四、关键系统存储投产实施及运维管理

1.关键系统存储投产实施的关键点

1.1现网调研
对现网架构的服务器多路径、存储兼容性、数据量、网络带宽、可用窗口、影响范围等进行详细调研。针对现网应用系统及基础架构等差异,科学制定投产的方式、批次等投产实施方案。

1.2实施窗口
由于迁移变更内容多,操作复杂,关键系统磁盘较多、操作时间较长,导致整个操作时间窗口有可能超出正常维护窗口时间。可以通过科学制定Runbook、操作指导书、操作命令、非影响业务的情况下提前开展、分阶段分批实施等措施,科学规划操作时间窗口。一般可根据各应用系统的业务逻辑、实施窗口、数据存储和存储类别等耦合程度,在实施风险可控前提下,规划实施阶段和批次。

1.3数据迁移
数据迁移是存储新架构投产的关键步骤。在存储数据迁移中需重点关注数据一致性、业务完备性和系统兼容性。科学安排数据迁移策略,灵活使用数据迁移工具,通过迁移演练等多种措施,尽量减少停机窗口和停机对客户服务体验的影响。

由于数据迁移适用场景较多,业界积累了较为全面的数据迁移步骤,我行与存储厂商结合业界实践经验,将存储数据迁移工作进一步完善,总结为4个阶段,17个实施步骤。详见图三。
图三:存储数据迁移步骤

图三:存储数据迁移步骤

在实践中,存储数据迁移的对象、层级、场景和工具较多,具体参见表一。表二中以以华为存储为例,列举了存储常用数据迁移工具。

表一:存储数据迁移场景

表一:存储数据迁移场景

表二:存储常用数据迁移工具(以华为存储为例)

表二:存储常用数据迁移工具(以华为存储为例)

1.4回退方案
回退方案作为投产实施方案中的关键环节,必须确保投产出现风险时,完善的回退应急预案,保障回退期间业务不受影响。需提前准备并演练不同投产场景的主要回退步骤,将回退所需时间加入到投产计划窗口之中。下表以华为存储为例,列出了不同迁移场景的主要回退步骤。
表三:存储迁移回退场景及主要步骤

表三:存储迁移回退场景及主要步骤

1.5投产跟踪
主要对整体存储架构及应用系统的功能及性能进行跟踪,验证投产工作的实际成效。针对发现的故障及时进行分析,并评估采用基于投产架构环境进行解决、整体回退或部分回退等方案保障生产系统安全稳定运营。

2.关键系统存储运维管理的关键点

2.1常态化演练机制
常态化演练是检验灾备体系可用性、准确性和时效性的关键手段。把应急演练纳入常态化轨道,开展经常性的、针对性的应急演练工作,才能充分保证灾备机制的有效性,检验灾备流程的可操作性,不断完善灾备体系建设,持续提升灾备演练的实战能力。一般按照监管要求、业务特点和管理需要,制定常态化(年度或一个周期)演练计划。存储架构作为企业整体容灾体系的重要基础,一般依托应急演练计划开展常态化演练,如表四。

表四:常态化应急演练计划(示例)

表四:常态化应急演练计划(示例)

2.2日常运维机制
常态运维机制一般包括常态巡检机制(告警检查、硬软件状态等)和性能分析机制(历史性能数据分析、容量预测、瓶颈预测及优化等)。日常运维机制策略如表五。
表五:关键存储日常运维机制

表五:关键存储日常运维机制

2.3智能运维工具
一般来说,存储厂商可以提供存储产品的监控及运维工具,也可使用第三方工具。智能运维工具的使用可以大幅提高运维管理的准确性和效率。如华为DME所提供的存储智能预测分析(硬盘失效预测、容量趋势预测、性能潮汐分析、性能异常检测、性能瓶颈分析、设备健康评估)、报表展现、存储异构管理等功能。以及SmartKit、eService和SystemReporter等运维工具。

华为SmartKit为存储、服务器、云计算三大领域的产品提供了统一的服务工具平台。

运维团队运用SmartKit“定时任务”功能实现核心存储自动化巡检机制。


eService是华为IT产品的云端智能运维平台,覆盖存储、服务器、云计算三大领域产品。提供存储智能预测分析(硬盘失效预测、容量趋势预测、性能潮汐分析、性能异常检测、性能瓶颈分析、设备健康评估),eService主动式问题处理。Call Home服务(需联网),云上管理(需联网)。

限于我行数据中心外网隔离要求,日常由维护人员定期将存储运行数据脱机上传至云端。

SystemReporter是存储系统的性能监控软件,可以帮助用户更好地了解固态存储系统的性能状况与趋势。提供实时监控、历史监控、性能告警、报表定制和容量预测。

2.4健全运维生态
关键系统存储作为银行机构的关键设备,在提升行内技术人员能力的同时,还需建立“原厂+三方”、“一线+后台”、“交付+研发”的立体式、全天候的支撑服务体系。

五、结语

本文基于银行业关键系统存储需求场景,结合行业经验,对银行业关键系统存储架构设计原则和关键点、投产实施和运维管理等重点内容进行了研究和总结。介绍银行业关键系统类别和存储使用场景,分析了关键系统存储架构设计的存储类型、容量、组网及高可用容灾等关键点,总结了在投产实施及运维管理中需关注的现网调研、实施窗口、数据迁移、回退方案、投产跟踪和常态化演练机制、日常运维机制、智能运维工具和健全运维生态等重点方面,希望能让读者对银行业关键系统存储实施落地的行业经验有所了解和参考。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

9

添加新评论2 条评论

wanggengwanggeng系统运维工程师某银行
2022-12-28 16:20
感谢作者的分享,通过作者的分享可以更好了解到关键系统存储架构设计的存储类型、容量、组网及高可用容灾等实践内容参考,具有同业借鉴意义。
nkj2021nkj2021系统架构师某证券企业
2022-12-21 11:28
本文从银行关键生产系统存储架构的设计和实施为切入点, 从存储的选型与规划、到需求的调研和回退方案的选择,从 常态化的演练到运维机制的建立,涵盖了存储的全生命周期 的管理,具有很好的借鉴意义。
Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

作者其他文章

相关文章

相关问题

相关资料

X社区推广