chenmingfu
作者chenmingfu2021-10-25 11:20
基础架构组长, 西部某城商银行

基于城商银行核心系统应用场景存储选型实践 需求分析及设备选型思路篇

字数 5455阅读 3203评论 1赞 5

本文以某城商行新一代核心业务系统建设项目为背景,根据核心业务系统应用数据存储实际需求,详述存储设备选型关键考量点,为同业进行关键应用系统存储设备选型提供思路。

全文共分为3个部分:需求分析及设备选型思路篇、设备测试篇、设备选型经验和效果篇;本文为第一部分需求分析及设备选型思路篇。

一、项目背景

我行的核心银行业务系统于2003年初投产上线,有效的支撑了我行各类业务发展15余年,随着时间的推移及业务模式的快速发展,原有的核心业务系统受到传统系统架构的制约限制,为快速适应当前BANK 4.0时代的快速业务变化,我行于2018年底正式启动了“新核心业务系统升级建设项目”。我行现有生产数据中心存储设备品牌种类繁多且性能差异较大(包含:IBM DS8870、IBM DS400、IBM V7000、HDS G1000、HDS F1500、EMC VNX5100、NetApp FS6200、华为OceanStor S5500T、华为OceanStor 6800V5等),过多的设备品牌给日常运维管理带来了较大挑战,人员维护技能无法及时提升,难以满足日常管理需要,日常运维过度依赖设备原厂商,设备维保成本逐年剧增,导致信息科技投入成本过高。

为有效提升存储设备管理水平、满足新核心业务系统投产存储需要及降低新核心项目的投产切换上线风险,最终选择 “新建生产环境数据中心统一整合存储设备” 的方式进行核心升级建设项目投产切换上线,借此契机,整合优化存储架构。

二、建设目标

本次新数据中心建设的目标如下:

(一)统一整合数据中心存储设备

将数据中心原有6个品牌总计9个型号的存储设备统筹规划整合至2个品牌型号,满足全行100余套信息系统存储资源需求,提升存储效能,简化IT运维管理。

(二)贯彻落实国家信息技术应用创新战略

在满足安全稳定可靠及性能前提下,充分响应国家“信息技术应用创新”战略,优先考虑已经经过行业考验的优秀国内软硬件品牌。

(三)提升数据中心技术架构水平

借鉴业界最佳实践,结合当前信息技术发展趋势及实际情况,统筹规划新一代数据中心技术架构,建设“技术成熟、行业主流、架构稳健、运行稳定”的数据中心,满足未来5-10年业务发展需求。

(四)优化容灾体系架构

基于信息科技现状和容灾体系策略规划,统筹考虑第一生产数据中心、同城数据中心及异地灾备中心架构,确保新数据中心技术架构的可延续性,满足向未来双活数据中心的平滑过渡。

三、存储设备选型思路

存储设备作为数据中心内最关键、最核心的硬件资源,其重要性不言而喻。设备选型应该遵循“ 行业主流、安全稳定 ”的原则,同时,兼顾性能(主要包含IOPS、MBPS及延时等指标)与成本,并充分考虑国家信息技术应用创新战略。对于金融行业来说,新数据中心建设时,为确保安全可靠以及数据一致性等条件约束,建议按场景(如数据库和应用)分别对存储进行使用,不建议混合使用。银行业存储设备选型的关键点在于存储需要具备以下几个特点:

(一)行业主流

所选择的存储设备品牌及型号需要在业界(尤其是同行业)有广泛的成功应用案例,经得起同行业的考验。最后,需要有稳定的服务团队,产品和方案落地靠的是人,银行的数据中心存储方案落地,需要有资深的行业架构师和服务人员,才能确保该硬件产品得到强大的后台技术团队支持。 参考2 020 年 Gartner 企业主存储品牌魔力象限排名,华为不但依旧保持在行业领先的象限,而且与国际存储大厂H DS 、 Infinidat 相比也毫不逊色;近年来,某些国外传统存储大厂进行了战略大调整,在国内的存储技术服务力量明显削弱,相对其它厂商而言,华为存储设备的技术支持服务能力较强,能在第一时间响应客户需求。 同时核心存储也需要考虑到存储的性能,对业务未来不可预测性能需求,需要可以应对,如使用更新的存储协议和存储介质、对于多云平台的支持,如Openstack、VMware、容器等。

(二)安全稳定

存储设备重点需要考虑稳定性和数据服务能力,对银行业数据中心而言,存储设备牵一发而动全身,存储架构的稳定性及可靠性是数据中心存储选型最基本也是最重要的需求,包含存储架构冗余度较高,各个部件(如:控制器、磁盘、前端接口卡、后端接口卡、网卡及电源等)均为冗余设计、支持在线热插拔,任意部件损坏均不影响主机上业务运行。

首先,整个存储系统要具有全冗余与安全性设计,不存在“单点故障”,包括控制器、缓存、硬盘、前端口、后端口、电源、风扇、电池等部件均具有冗余,硬件维护对上层主机访问无感知。 作为存储系统中最重要的两个部件“控制器”和“硬盘”,有的存储产品已经可以做到支持控制器四坏三,硬盘可容忍两块甚至三块同时损坏,如:华为最新高端存储甚至可以支持控制器八坏七。

其次,各部件可以进行微码在线升级,对主机访问无影响。特别是关键部位控制器,已有最新存储产品可以支持控制器升级微码不重启。

(三)可维护性

存储设备需具备较高的可维护性,各个部件的预防性维护和更换均为在线操作,控制器、硬盘及接口卡等部件都必须支持在线微码升级,交替重启部件或更换部件时不可以影响到上层业务;可以通过机器学习等先进的存储算法,实现存储服务的自我优化,并且可以智能的监控存储设备的运行状态,预测未来的存储服务需求。

(四)硬件架构

当前存储设备产品根据架构分为“ 集中式架构存储 ”及“ 分布式架构存储 ”两大阵营。 集中式架构存储 采用的是块机制,以块为单位实现数据的更新和锁机制,其机制跟数据库管理数据文件的方式类似,性能及安全性可得到有效保障,这也是银行业选择它那么多年的理由。 分布式架构存储 现在有两种常见做法,一种是 基于对象存储机制 实现的分布式架构,一种是 基于分布式文件系统 实现的分布式架构。对于这两种架构的选择,需要结合上层应用配套考虑。

集中式存储最大的优势在于架构简单、维护相对容易,已有的运维经验能够延续,同时传统存储厂商支持能力相对较强。而分布式存储在非一线城市中厂商技术支持方面还存在短板;集中式存储使用较早,而分布式存储出现时间才刚刚几年,软件的可靠性方面还有待进一步考量。传统的集中式存储使用至今在数据库和应用上都没问题,特别是集中式存储的同步工具等都很成熟,能较好地满足各类系统应用和数据库的性能与可靠性要求;从分布式存储软件授权和后期支持服务费用等价格方面考虑,整体价格优势是否比集中式存储已不够明显。集中存储的成本已不再让人望而生畏,现在集中式存储以闪存为主,容量大且体积小,价格越来越便宜,成本较全闪配置的分布式存储,差距已明显缩小。

对于银行信息系统中大多数关键应用,包括核心系统、前置系统、支付系统、银行卡系统等应用,具有高稳定性、高吞吐量和低时延等特性的集中式架构存储是更好的选择,存储设备的各个控制器工作在对称Active/Active模式,各控制器性能负载稳定均衡;若上层应用有特定的分布式文件存储、对象存储或者海量数据存储需不断扩展的需求,同时对存储稳定性和时延要求不高,则可以考虑选择分布式架构存储。

金融行业目前交易类和报表类数据库一般情况会在集中式存储上。对于高I/O且对时延较为敏感的核心或者其他重要业务系统,高吞吐低时延的集中式架构高端存储更为合适,安全性和稳定性也经过多年充分验证。同时,现在企业级高端存储内部架构都是支持在线横向、纵向扩展的,因此从某种意义上来说也是分布式。企业级高端存储既具有分布式特性又具有集中管理的优势,可以说是分布式集中存储。

(五)可扩展能力

存储设备具有灵活的体系架构,在不中断存储服务的情况下实现核心、边缘和云的现代化部署,并且可以按需在线进行横向扩展,同时扩展存储容量和存储性能,随着容量需求的增加可以按需进行在线扩容,包括存储柜内的纵向扩容和多柜的横向扩展,扩展之后实现存储资源的在线自动平衡。以机械盘为数据载体的上一代存储容量小、可扩展性差。 而随着存储技术的飞速发展,硬件层面上闪存盘的普及使得单台高端全闪存储的性能和容量极大提升,再结合控制器在线横向扩容等技术的应用,单套存储架构的可用容量达到PB级别,基本能满足大行的某套应用或者中小银行的数据中心未来五年的容量需求。

当前行业内主流高端存储设备基本配置为“四控制器”,Cache容量高达TB甚至更高,前端主机接口模块FC口速率高达到32GB。闪存盘因“大容量、高IOPS、低耗时和低返厂率”等特点已成为当前集中式高端存储设备的首选主流配置。对于预算充裕的用户,可以选择配置NVMe SSD盘,充分保障设备性能满足业务需求。

(六)性能指标

存储设备为数据中心最重要的硬件设备,一旦性能出现瓶颈,将会导致众多业务系统运行缓慢甚至导致业务中断,故在存储设备购买时,一定要充分结合业务系统运行情况,并充分预测未来5-10年业务发展趋势,推算出存储设备性能指标,至少保证未来5年内业务系统不会出现存储性能瓶颈。随着闪存技术的快速发展,目前全闪存存储已经成为各家主流存储厂商的标准配置,同时结合控制器和硬盘框的NVMe技术应用,IOPS已经从传统机械硬盘存储的几万、十几万,上升到几百万级别,性能得到极大提升,因此在当前形势之下采购新存储设备时, 全闪存储已成为首选,如果成本可以承受,配备NVMe SSD的全闪存储是最佳选择。

(七)成本评估

对于银行业来说,高端存储设备选型一个重要的参考就是单位TB可用容量下的成本,能够花更少的钱买到更多的容量,一定是我们采购过程中的一个重要指标,这就对存储设备的架构能力和存储厂商的商业模式提出了一定的要求,最终的选择需要根据实际情况去做抉择。计算成本时除了硬件配置成本,还需要考虑软件许可成本和日常管理维护成本(包含存储设备维保服务成本)。

(八)容灾能力

对于银行业来说,两地三中心或多地多中心是当前监管部门强制要求必不可少的数据中心建设模式,在完善的容灾体系架构场景下,基于存储复制技术的容灾架构依然是各银行业倾向选择的一种数据保护措施,故在银行业选择存储设备时,还需要充分考虑存储设备的容灾架构支持能力。

存储架构的容灾能力指的是本身高可用性之外对于各个灾备特性的支持,包括存储层双活、存储异步复制以及两地三中心架构的支持度,双活仲裁机制是否可以保证常见故障场景下业务的连续性和数据不丢失。

集中式架构存储的容灾特性主要考虑如下三个方面:

(1)支持免网关双活A-A架构,即不依赖于VPLEX、SVC等存储网关设备,而直接使用存储自身的机头进行两台存储之间的IO双活。如:华为公司的HyperMetro及H公司的GAD就属于免网关解决方案的主流技术之一。

(2)数据同步和异步复制功能,可以与双活特性实现免网关的双活+异地容灾的三副本数据容灾架构。

(3)快照功能。

上述三方面的功能是采购高端存储时尽量要求满足的特性。

(九)国家信息技术应用创新战略

当前,国家提出“信息技术应用创新”战略,其中存储设备隶属于“信创基础设施产品”范畴,监管部门也出台相应政策,对于银行业来说,在满足安全稳定可靠及性能前提下,应该充分响应国家“信息技术应用创新”战略。随着国内存储厂商技术的不断提升,目前国内某些存储品牌已经得到业界公认和实践,实践案例也逐年丰富,能够满足数据中心建设的各项指标需求。随着国内厂商技术的不断演进, 目前国内存储品牌(如:华为)已经得到业界公认和实践,能够满足数据中心建设各项指标需求。因此,在国家提倡科技创新和金融行业IT国产化战略的背景下,在存储产品各项功能均满足的前提下,可以优先考虑已经接受行业考验的国内存储品牌。

(十)厂商技术支持服务能力

重点考察设备厂商存储产品持续研发能力和本地技术服务能力。对于存储设备,采购和集成交付只是其生命周期中刚开始的很小一部分,后期的运行维护才是科技运维人员最主要的工作。尤其对于运维能力水平不是很高的中小城商行,存储设备硬件生产厂商自身的研发实力及后期延续性服务能力至关重要,是否有未来数年的规划支撑客户的业务需求变化,是否有软硬件的研发能力,在遇到个性化需求时或需求变化时能够及时响应处理的能力,是否有本地化的技术支持服务力量,对客户的响应是否及时且有效,这些都需要充分考查和了解。

四、总结

企业在进行数据中心存储设备选型时一定要本着“行业主流、安全稳定”优先的原则,这样才能保障信息系统及数据中心长期健康平稳运行,才能进一步提升业务连续性能力,企业也才能高质量快速发展。此外,在设备选型时还需要保持较高的政治觉悟,积极响应国家信息技术应用创新战略。

在充分考虑项目建设目标与产品选型思路的情况下,我行最终将原来位于6个品牌8个型号存储设备中的100余套业务系统安全平稳迁移到4台 华为OceanStor 18500F V5高端全闪存储中。充分整合存储设备,目前新一代数据中心已安全平稳运行近15个月,存储设备未出现任何异常,性能及高可用性完全满足银行业务需求,通过持续不断的监控及维护,各项数据指标也证明了华为高端存储硬件的稳定可靠性。 本文结合我行存储设备选型工作,分析存储设备选型过程中需要关注的要点,并具体解析其应对策略,希望给同行在存储设备选型工作方面提供一种借鉴。

相关文章:

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

5

添加新评论1 条评论

曹昌胜曹昌胜员工, 兴业银行
2021-11-11 19:31
每天学习一点,不断地进步
Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

NAS存储选型优先顺序调研

发表您的选型观点,参与即得50金币。