昼者
作者昼者2021-12-24 10:05
技术经理, 某省农信

全闪存储在银行核心系统的应用及实践

字数 6785阅读 2880评论 4赞 7

摘要:本文基于某省农信同城双活中心建设情况,从现网存储架构的痛点难点、全闪存储的选型测试、架构设计及运维实践等方面,较为全面地介绍了全省存储在银行核心系统的应用及实践,同时认为全闪存储的投产为银行数字化转型坚定了信心、夯实了基础、赢得了空间。

1 背景

随着我行业务的蓬勃发展,各应用系统数据量和交易量大幅增长,同时现网生产系统存储已运行7年有余,故障率逐渐上升。为有效提高存储架构的整体性能和可靠性,按照“小步快跑,择机突破”的策略,利用建设同城双活中心契机,更换现网核心及重要类存储并实现同城双活架构。

2 痛点及难点

2.1 性能出现瓶颈

现网核心系统瓶颈主要在于存储读写延迟较高,结合核心系统应用特性(数据库超时时间较短)对基础架构稳定性要求极高,导致核心系统数据库卡顿(无响应)频繁,严重影响客户体验。同时随着业务类别的转化,原有系统数据量激增、并发量逐年增高,存储池中各业务系统IO竞争现象频发。

2.2 设备扩展有限

现网核心及重要类存储已投产运行7年有余,故障率逐年上升,同时受限于机房物理空间及扩容成本较高,难以对现网存储池进行扩容。

2.3 售后支持不足

随着国际形势、国家政策的变化,传统外企存储产品市场占有率逐步降低,与之相应的可持续售后能力也呈现弱化趋势,存储的“产品-售后”、“原厂-三方”的生态逐渐进入恶性循环,同时我行地处华中地区,相应厂商产品支持力度更为堪忧,成为我行在IT运营中必须面对的重要问题。

3 选型测试

存储设备作为银行信息系统中最为关键的核心设备,不仅存放着全行业务及管理数据,同时也是容灾解决方案的主要底层技术,选择了某品牌存储一般意味着就选择了该品牌的存储高可用技术及所配套的容灾解决方案。 因此,我行综合考虑系统瓶颈、同业案例以及技术发展趋势,将全闪存作为存储选型基准,全面、真实的评估全闪存的高可用功能及性能。

3.1 POC测试

一是邀请4家存储领先厂商,选用多台最新型号的全闪存储,模拟多站点容灾场景,确保存储产品的专业技术能力和测试的全面性;二是以应用场景为核心,选择以核心系统耗时最长、资源开销最大的存款计息批处理作为 “试金石” ,测试了业界常用的各类操作系统、数据库及存储等高可用技术组合的容灾架构性能。通过为期4个月的POC测试,较为全面的测试了7种容灾技术组合的功能和性能,为存储及容灾架构选型打下坚实的基础。具体POC测试内容详见 省农信核心系统高端全闪存储POC选型经验分享

3.2 选型重点

结合POC测试结果,同时还需考虑闪存产品及其厂商的技术功能、运维管理、服务生态等各维度,进行全面评估选型。

技术功能方面。 重点关注全闪存储的兼容性、与传统存储技术功能特性的延续性、容灾数据保护能力的差异性和和存储架构整体性能等相关方面。

运维管理方面。 存储厂商所提供的运维工具是否全面、多样,是否提供智能化工具、开发接口以及工具后续开发能力,以提高行方存储运维效率。

服务生态方面。 是否提供“原厂+三方”、“一线+后台”、“交付+研发”的立体式、全天候的支撑服务体系。

性价比方面。 在上述内容相似的情况下,需对比每TB可用容量售价、售后服务费用等方面。

综合以上各维度统筹考虑,我行通过公开招标选择了6台华为 OceanStor Dorado18000系列高端全闪存储,作为我行核心类及重要类3DC解决方案,并以此进行同城双活容灾方案设计。

4 架构方案设计

存储架构的设计既要满足未来业务发展需要,技术发展趋势,也要在总体技术风险可控的前提下,对现有架构进行平滑升级,解决当前架构瓶颈。我行闪存平台 的建设 总体 原则是 根据不同 应用 对存储 性能 和 容灾 的诉求进行 存储选型。 按 A+ 、 A 、 B 、 C 四类应用的业务重要性及对 RPO 、 RTO 不同要求,重新排列应用主机和存储对应关系,对应不同级别容灾方案。

需要注意的是,没有最好的存储技术,只有最适合的存储解决方案。因此,在存储架构方案设计时,需从行内实际情况出发,对标行业最佳实践,充分利用厂商资源,做好技术的延续性、做好架构、产品、性能、维护和费用之间的有效平衡。

4.1 闪存配置

存储的单机配置决定着存储架构的整体性能。因此,我行在存储架构规划时采用“高端低配”(高端机型、中低配置)策略进行存储选型,在保障技术先进、性能强大的同时,降低维护期因存储技术落后、性能不足而带来的优化和扩容等风险较大操作的频率,同时高端机型也能够得到原厂商更大售后服务支持。所替换的老旧存储可用于开发测试或外围类系统使用,保护既有投资。

在容量设计方面 ,根据现网存储容量、历史增长率以及未来增长率等指标来综合评估。以存储池为单位,根据当前容量大小,将近3年最大年增长率作为未来5年年均增长率进行估算,在此基础上再预留20%-30%可用容量。

4.2 SAN、应用组网

存储架构的S AN 网络设计涉及S NS5384 2 台,S NS5192 4 台。 其中 A 数据中心部署 2台S NS5384光纤交换机 、2台S NS5192光纤交换机 ;B容灾中心 部署2台 S NS5192 。

在满足技术先进性的前提下保障技术选型稳定性和高可用性,确保 SAN 架构稳健、保障业务系统性能。在实施整个项目过程中以数据完整性为核心保障体系,按计划完成容灾方案为目标,尽量减少业务系统影响,降低对业务系统的影响。

根据设备情况,从需求、容量、性能、可用性和管理性几个方面详细设计 ,重点考虑存储池类别、吞吐负载、关联耦合性,

尤其需要提前规划SAN交换机端口分配规则、 Zone分配规则 、 跨数据中心级联设计 。

4.3 高可用及容灾

我行根据金融机构自身特点制定了“大同城,小异地”的多数据中心整体容灾建设思路。

“大同城”指以双活模式构建两个同城数据中心,通过部署必要的软硬件设备,逐步实现既能两个中心共同承担业务,又能单个中心独立承载全部业务。“小异地”指建立异地灾备数据中心,在发生区域性灾难时,保障金融机构关键业务的持续运营。

存储架构是全行容灾方案的重要基础。存储架构方案的设计需要根据全行整体容灾建设思路,结合存储特性和业务特点统筹规划,以确保满足监管及全行所需RTO及RPO指标。在实际制定存储规划方案中,有以下方面需重点关注。

4.3.1 存储3DC的选择

存储3DC架构已是各大存储产品的标准功能 架构 ,也是各行业容灾方案中均采用的成熟存储容灾解决方案。但在实际使用中,需根据各行现网容灾架构、数据中心间距离、空间、带宽质量、人员分布等因素综合考虑。

一般来说,存储3DC架构在物理地点设置上有两种方案,一是本地、同城和异地各一台存储,三者间形成3DC容灾架构;二是本地(2台双活)和同城(1台)组成容灾架构。我行现网北京异地灾备与主中心间采用数据库逻辑复制方案,同时结合武汉地质灾害较少、本地两中心距离较短(物理距离30KM、线路距离50KM),且链路质量较好(通过裸光纤专线互联),最终选择了方案二,即本地(2台双活)和同城(1台)组成容灾架构,最大程度应对本地主中心存储故障。

在存储资源池规划方面,我行 存储 平台 的建设 总体 原则是 根据不同 应用 对存储 性能 和 容灾 的诉求进行 存储选型。 按 A+ 、 A 、 B 、 C 四类应用的业务重要性及对 RPO 、 RTO 不同要求,重新排列应用主机和存储对应关系,对应不同级别容灾方案,核心、外围采用本地双活技术做本地高可靠设计。

同时优化当前烟囱式架构,FCSAN网络采用 core-edge 架构,通过 分层 实现计算、存储资源池化,更 利于 向 云化演进。 存储池间数据互联互通,应用共享所有存储资源。

4.3.2 存储高可用方案的选择

容灾体系规划应该从业务视角为出发点,以终为始的制定各类业务系统RTO和RPO,找准各容灾技术定位,通过各容灾技术组合做好备份冗余,按照业务类别和技术特性搭好容灾技术体系框架,做好容灾技术顶层设计。在同城双活中心建设时,根据业务系统重要等级将存储资源池分为核心、外围及管理三类,分别提供存储级“快照+本地双活+同城复制”、“本地双活+同城复制”及“同城复制”容灾能力。可以将上述三类存储资源池及所提供的容灾能力看做三个“篮子”,当有新增系统或变更时,只需按照业务系统等级及特性,将其放入不同存储及容灾技术的“篮子”之中,同时根据需要搭配数据库复制及备份容灾技术。此举可大大降低存储及容灾体系维护工作量。

容灾体系规划实践中,可以利用多种容灾技术进行组合,以提高灾难防范能力并满足业务系统的RTO和RPO要求。如,针对核心重要类系统,我行在本地存储双活、异地存储复制和数据库复制的基础上,在本地存储新增了每4小时一次的快照和每日数据库备份,利用多层次的容灾技术组合增强关键系统的高可用性。

4.4 数据迁移

数据迁移是存储新架构投产的关键步骤。在存储数据迁移中需重点关注数据一致性、业务完备性和系统兼容性。

我行同城双活建设 项目涉及应用改造和灾备架构的变更 ,涵盖 14套核心系统和56套BC类系统 , 涉及到应用软件版本变更、操作系统替换、数据库版本等 诸多变更 , 数据 迁移 技术 难度高, 对 客户 影响大 。因此,需 科学安排 数据 迁移策略 , 尽量减少停机窗口和停机对 我行客户服务体验 感知。

原14套核心业务系统主要以AIX、Linux操作系统、DB2数据库、oracle数据库为主,部署 于 IBM小型机和DS8700存储。操作系统层 面, 通过LVM技术 实现 两台DS8700镜像 双活 。 迁移目标环境中,对 操作系统版本、数据库版本 均进行了较大版本跨度的升级, 给数据迁移带来 更大的挑战 。

在数据迁移方案中,我行采用华为所提供的数据迁移工具,针对不同场景制定了个性化数据迁移方案。具体来说,针对现网存储架构,对基于LVM卷管理的存储采用 基于LVM卷镜像技术迁移 ;对SVC管理的存储池,采用华为存储纳管方式;对于应用系统环境较为复杂,无法采用上述两种方式进行数据迁移的系统,基于应用层数据备份/恢复及拷贝方式进行迁移。在正式迁移投产前,项目组通过 大量迁移测试和演练 , 最终成功平稳的完成迁移工作。 具体迁移情况将撰写存储数据迁移专题文章分享。

5 运维及实践

5.1 实际性能

5.1.1 与原生产传统存储性能对比

(1)平均读时延和最大读时延,由原架构的 2.41ms 和 15.41ms ,提升为当前的 0.4ms 和 0.7ms ,提升约为 6 倍;

( 2 ) 最大写时延,由原架构的 4.75ms ,提升为当前的 <1ms ,提升约为 4 倍;

( 3 ) 平均写时延,由原架构的 0.44ms ,提升为当前的 0.4ms ,略有提升。

5.1.2 存储运行峰均值情况

通过投产后近两年的稳定高效运行,华为 OceanStor Dorado18000高端全闪存储及其整体架构表现优异。

(1) 平均读时延和最大读时延,分别为0.397 ms 和0.6 ms 。

(2) 平均写时延和最大写时延,分别为0.4 ms 和0.87 ms ;

( 3 ) 总IOPS均值及峰值,分别为7315和85967。总带宽均值及峰值,分别为460MB/s和2024MB/s。

5.1.3 真实业务运行情况

各类系统架构升级投产后,稳定性和性能均大幅提升,夜间批处理全量时间由5.5小时缩短至3.2小时,其中决定网点门市业务的日启批处理时间由3小时缩短至1.4小时,耗时最长的存款计息批处理由110分钟缩短至15分钟。

5.2 运维管理

由华为所提供的现场“备件 + 驻场”,服务“现场 + 远程”的服务方式是闪存投产后高效稳定运营的坚实后盾。

相较与原核心存储运维服务,华为原厂运维人员技术能力更加突出、后台技术支持更加到位、配套管理工具更加齐全、智能维护措施更加丰富。特别是由存储研发专家组成的二线支持团队,所提供的线上支持、现场保障和难点排查等专业服务的响应效率和事件完结率,给我行留下了深刻印象,坚定了我们对国产高端存储的信心。

5.3 运维工具

我行与华为原厂、维保厂商所组建的存储运维团队建立了常态运维机制,包括常态巡检机制和性能分析机制,利用华为所提供的存储运维工具高效自动生成:监控评估报告、洞察分析和核心存储性能分析报告。

在闪存运维中主要使用了华为所提供的 SmartKit 、 eService 和 SystemReporter 三款运维工具。

华为SmartKit为存储、服务器、云计算三大领域的产品提供了统一的服务工具平台。

运维团队运用SmartKit“定时任务”功能实现核心存储自动化巡检机制。

eService是华为IT产品的云端智能运维平台,覆盖存储、服务器、云计算三大领域产品 。提供存储智能预测分析(硬盘失效预测、容量趋势预测、性能潮汐分析、性能异常检测、性能瓶颈分析、设备健康评估),eService主动式问题处理。Call Home服务(需联网),云上管理(需联网)。

限于我行数据中心外网隔离要求,日常由维护人员定期将存储运行数据脱机上传至云端。

SystemReporter是存储系统的性能监控软件,可以帮助用户更好地了解固态存储系统的性能状况与趋势。 提供实时监控、历史监控、性能告警、报表定制和容量预测。

为进一步提升存储管理效率,计划新增SmartIDC和 DME Storage 两款工具。

SmartIDC是针对数据中心分析评估容量、性能、容灾等现状,问题和风险,帮助有效预防风险,优化现网,规划演进。

DME Storage 是 数据中心存储设备的集中管理运维软件 。统一了管理、控制和分析多个传统存储软件。覆盖生命周期的自动化能力,让管理员从重复繁琐的工作中抽离出来,既避免了人为错误,又可以专注于问题的解决和经验的积累。

6 总结

全闪存的性价、技术和服务的普惠为我行数字化转型提供了更多的选择,国内高端全闪存产品的投产为我们的数字化转型之路,坚定了信心、夯实了基础并赢得了空间。

6.1 坚定了数字化转型信心

同城双活中心建设项目的成功上线和全闪存储顺利投产所带来的系统性能提升,让我行坚定了数字化转型的信心。一是技术发展带来展业机会。核心类系统升级成功后,在原应用架构几乎不变的情况下,支付类交易 TPS (系统每秒处理交易笔数)提升 60% ,交易耗时大幅缩短,平稳度过春节前业务高峰期,极大地提升了客户体验,为业务发展带来了新机会。二是承载核心及重要类系统的6台华为 OceanStor Dorado18000系列高端全闪存储投产后,高效稳定运行,性能符合预期,坚定了我们对核心设备国产化的信心,在数字化转型之中拥有更多更好的技术选择。三是同城双活中心项目实施中,实施团队所展现出勤恳的工作态度和突出的专业能力进一步增强了我们对高端国内厂商交付能力的信心。

6.2 夯实了数字化转型基础

闪存的投产夯实了我行数字化转型的基础。一是提升了系统性能。通过同城双活中心建设、全闪存储的数据平滑迁移,我行核心系统整体性能得到了极大的提升,为业务发展提供了强大的性能支撑,使我行在数字化转型之路上能够阔步前行。二是锻炼了人才队伍。人才软实力是数字化转型的必要条件,在全闪存投产过程中,行内人员深入参与项目建设,提升了对全闪存产品技术的理论认识及实操能力。三是健全了数字生态。数字化转型绝非闭门造车,而是需要构建数字生态,与合作伙伴们携手前行。通过与国内领先厂商的合作,增进了相互了解,健全了我行的数字化生态,为我行持续的数字化转型夯实了基础。

6.3 赢得了数字化转型空间

通过同城双活中心的建设和全闪存储的投产,我行核心系统性能可以支撑未来3 - 5年的业务发展,为后续的数字化转型中,选择分布式架构、云平台等技术留好充足的转型发展时间 和 性能提升空间 , 加快了技术迭代速度 。一是留足了转型发展时间。全闪存与行内信息化系统其它组件的耦合性较低,迁移技术成熟,实施周期较短,为银行机构探索数字化转型的发展路径预留更多的时间。 二是 储备 了性能提升空间 。全闪存的性能提升主要来源于硬件性能、智能算法等方面,在信息系统其它组件,如操作系统、数据库、应用程序等配套调优后,整体性能还有更大的提升潜力。 三是 加快 了 技术迭代速度 。由于全闪存的普惠,特别是国内高端全闪存厂商的崛起,使得全闪存的普惠进程进一步加快,可以使银行机构 快速技术迭代,向更为绿色、节能、高效、稳定的全闪数据中心演进。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

7

添加新评论4 条评论

leng0052leng0052网络及系统管理经理, 交行卡中心
2022-01-07 13:26
信创背景下对于银行业后续的存储规划我是有点迷茫的,可以说本文对我有指导意义,增加了我对核心系统用华为全闪存储替换的信心,后面也非常期待关于数据迁移的文章。
张鹏张鹏系统运维工程师, 某城市商业银行
2022-01-06 23:21
文章非常有现实指导意义,特别是在金融行业数字化转型的背景下,对存储构架的全面设计与整体考虑的同时,还能层层深入,从具体繁杂的工作中总结出这套方法论,值得学习和实践;希望可以在后续数据迁移的过程能够帮助正在路上前进的同业,给出各方案实施的进度和大概的工作量估算(如成熟工程师的人/天值),指导项目开展进度,把我重点与难点,“好人做到底”。最后想说,处在建设阶段的看本文,犹如指路明灯
ltzxlwj700mltzxlwj700m系统工程师, 中*银行
2022-01-04 17:08
【文章价值点】本文基于建设同城双活中心的契机,使用全闪存储替换现有核心及重要系统存储。作者详细描述了现网存储的痛点、存储选型的主要考量要素以及架构设计方案。 【文章建议】文章内容详实,作者提到闪存运维中使用可华为的运维工具,因为部分功能需将存储运行数据上传至云端,是否有信息泄露或者安全之类的奉献,可否在行内搭建华为的运维平台。 【个人看法】从该行POC测试文章《省农信核心系统高端全闪存储POC选型经验分享》中可以看出来,华为全闪存储的性能与三款传统存储厂商对比有良好表现,且华为售后和技术支持相比国外厂商有优势,这些都增强了金融行业存储国产化的信心。
笑笑笑笑系统工程师, 财险
2021-12-28 17:53
【文章价值点】: 文章介绍了银行在考虑两地三中心时,选择存储的考量点以及建设方案 【文章建议】: SAN交换机的设计图如果能更清晰点就更好了,当前那个图基本看不清楚 【文章内容疑问】: 作者所在银行在选型时做了POC,那么其他家的POC结果是怎么样的呢? 理论上来说,在性能和易管理方面,在硬件同样配置情况下,国外品牌的POC应该查不到哪里去。 【文章内容概括】: 作者所在行选择全闪的考虑点主要如下: 1.现有存储性能出现瓶颈 2.设备扩展有限 3.售后支持不足 在选型考虑点方面,主要如下: 1.技能功能 2.运维管理 3.服务生态 4.性价比 3DC的架构选择是本地双活+同城单台容灾。 数据迁移方面主要采用1.LVM卷镜像 2.SVC纳管 3.应用数据备份和拷贝 这也是当前数据迁移的主流模式 【个人看法】 从文章来看,该行的存储运维主要依赖厂商,自有人员偏向管理厂商及外包人员。
Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。