myy2020
作者myy20202020-11-11 13:50
系统工程师, 某银行

某国有银行的超融合技术选型和应用实践

字数 6047阅读 18818评论 4赞 8

【摘要】 2017 年,某行数据中心开始探索研究超融合架构,在长达 1 年多的学习、探索研究、技术测试和验证之后, 2018 年超融合项目在该行正式落地,在生产环境中投入使用。本文重点介绍了该行超融合技术探索和应用之路,从技术及理论的学习研究、技术测试、超融合架构选型、超融合在该行的应用的场景和适用范围等几个方面,进行了简要介绍,其测试方案、选型方法和应用范围可供银行业借鉴和参考。

【作者】 myy2020 ,某银行高级工程师,主要领域为虚拟化、云计算和 PC 服务器等。

超融合架构对银行来说是一种新兴的数据中心基础架构解决方案,借鉴了 Google 、 Facebook 等大型为互联网公司通过软件定义技术构建大规模数据中心的方法,结合虚拟化技术与企业 IT 的场景,不仅为企业从根本上将核心计算、存储和网络功能集成到单一软件或设备中的解决方案,更实现了存储向分布式架构和软件定义模式的转型。

超融合架构具备易扩展、高速网络、高性能与统一管理平台易管理等特点。目前我行数据中心已经使用了多年的传统外置存储架构,也暴露了出其扩展性差、灵活性低、管理复杂,成本高等问题。随着行内业务系统的增多,数据中心计算和存储规模的扩大,以及 PC 服务器虚拟化技术普及,需要研究新的架构提供将来提供高扩展性、高性能、高可靠性和可维护性的存储平台,同时又能简单管理,满足大部分业务按需灵活交付特性,是我行业务发展的需要。

一、银行业数据中心面临的挑战

我行在虚拟化数据中心阶段,采用 VMware 计算虚拟化 + 集中存储架构,在这个阶段,由于计算、存储、网络资源是通过前期资源预估进行配置,随着多样化业务的上线,存储相关的更多竖井化管理和配置、扩容复杂度将快速上升。传统虚拟化数据中心在互联网时代的冲击下,互联网企业率先遇到瓶颈, Google 在业务不断扩张下率先遇到了数据中心 2.0 时代性能瓶颈的挑战,前期苏宁云商、 12306 等首次上线的传统架构无法应对快速业务变化需求,我行同样面临着传统架构的各项困扰。

1 、集中式存储性能和容量是瓶颈、分布式转型是大势所趋

长期以来,由于集中式存储设备相对昂贵,我行在集中存储设备采购流程上的严格限制,存储设备的采购一般要经过需求汇总、立项评审、签报申请、财务审批、公开招标等诸多环节,流程复杂。采购设备的复杂流程,限制了存储资源池容量和性能的快速扩展,且硬件架构一旦成型扩展性能较差。相对而言,一般 PC 服务器采购框架采购模式,便于快速采购和扩容。

随着我行业务的蓬勃发展,我行今后势必会遇到集中式存储在性能和容量上的严峻挑战,研究、学习、配置新的 IT 架构,将计算、内存资源通过虚拟化的方式组成资源池,打破应用孤岛,将资源池按需分配给各种应用,实现计算效率以及内存利用率的提升,有着重要意义,而从发展趋势来讲,无论是应用层还是从 IT 基础架构层面,分布式因为其更好的扩展能力和资源池化能力成为大势所趋。

2 、基础设施运维工作需要简单化,软件定义模式是趋势

在去 IOE 的大浪潮下,运行于 IBM 主机、小型机的各类业务系统纷纷下移,相对开放的 PC 服务器使用量大幅增长,导致以计算、存储、网络为主体的基础设施运维工作量大幅增长。我行数据中心建立了计算、存储、网络设备的建设和运维规范,确保投入大批量 PC 服务器设备运维高标准,但是为满足各类业务系统对设备的特殊要求,导致基础设施运维的工作复杂度激增。

传统环境下,基础资源池搭建需要以下过程:在每个 x86 服务器上分别安装虚拟化软件,在 SAN 的存储上面创建一个卷 (LUN) ,决定这一个卷要使用那种 RAID 类型,存储管理人员必须正确的做好 zone 和 mask ,虚拟机管理人员要重新对每一个 ESXi 服务器扫描这个新的卷,虚拟机管理人员将这一个卷格式化成为 VMFS-datastore ,存储管理人员和 PC 服务器管理人员分别监控存储和 PC 服务器的使用率与效能。每个步骤都需要占用一个宝贵的 IT 变更窗口,要求多位高技能人才进行多次配合操作才能完成。

借鉴互联网数据中心的发展经验,基于商用服务器加软件的软件定义模式,可以非常好地简化和统一 IT 基础架构,从而降低采购和运维成本,让 IT 人员将更多的精力放在创新性的工作上。

3 、技术多元化是维护银行 IT 基础设施安全的需求

当今时代背景下,随着外部环境不断变化和信息技术产品创新发展,金融业充分意识到多元的信息技术产品是金融业稳定协调发展的必然需要。

随着技术架构的发展,国内虚拟化技术、分布式存储技术及以两者为基础的超融合技术迅猛发展,为银行的 IT 基础设施多元化提供一条有效的途径,能够实现自有知识产权或知识产权可控。国际国内政治经济和技术层面的不断发展,推动银行数据中心主动寻求变革,寻找传统技术和产品的替代者。

二、超融合的技术选型

银行的数据中心基础架构相对稳定,超融合架构作为一个传统稳定架构的挑战者和替代者,投入生产环境之前的选型必须慎之又慎,防止失之毫厘谬以千里的事情发生。我行数据中心经过长达一年多的论证和测试,组织了专门的团队对超融合架构进行了深入学习,对传统架构和超融合架构进行了深入比较,对各类超融合产品进行深度分析和验证,最终决定引入超融合架构,并选定两家国外一线厂商和一家中国专业厂商的超融合产品作为我行生产系统基础架构的发展方向。

1 、传统架构和超融合架构的对比

传统架构和超融合架构通过开放性、扩展性、资源池、可维护性和成本共 5 个方面进行比较, 5 个方面的比较见表格一。


表格一:传统架构与超融合架构比较

总体来看,超融合架构在虚拟化、分布式存储不断发展的前提下,非常好推进了数据中心架构的分布式和软件定义转型,相比传统架构在可扩展性、可维护性上有明显优势,也在一定程度上压缩了 IT 基础资源的总体成本。另外,该架构也更容易在计算虚拟化、分布式存储以及硬件层面分别实现信息技术产品创新需求。以上这些原因,我行决定引入超融合架构作为 IT 基础架构转型的重要技术路线之一。

2 、超融合产品之间的对比

传统架构与超融合架构的对比,解决了使用超融合架构的必要性和可行性的问题,接下来需要解决的是在众多超融合产品之间如何选择的问题。我行在进行超融合产品对比时,选取的了具有代表性的产品进行测试,包括国外一线厂商、某国内大厂、某国内上市企业和某国内专注超融合厂商的产品。

超融合产品涉及的功能点较多,测试周期长,测试完成后,对各产品的功能节点进行归纳总结和打分。测试的功能点主要包括以下几个方面:

虚拟化能力:我行数据中心传统架构中使用 VMware 虚拟化多年,对计算虚拟化能力要求较高,包括在线扩容、性能容量监控、报表等功能进行逐一测试。

兼容性:为降低成本,防止 IT 厂商之间抱团,我行对超融合产品要求做到软硬分离,超融合产品需要对多型号 PC 服务器进行适配。

存储性能:超融合的存储性能是测试的要点,测试功能点需要涵盖集中存储的功能,包括读和写的存储带宽、 IOPS 和延时。

管理集中化:为防止厂商将多款 IT 产品拼凑设定的指标,多款产品拼凑而成本质上不是超融合产品,不能发挥超融合优势。

架构稳定性:对超融合架构进行包括加压、拔盘、主动宕机等破坏性测试。

数据备份:超融合环境相对独立,对数据备份、恢复要求较高,在生产中使用必须能够达到 RTO 和 RPO 指标。

运维便捷性:能够做到一键部署,减少日常运维工作是选型的要点之一。

成本:成本也是我行考虑的一个指标,尤其占用机房空间和电力成本。

研发能力与客户化:我行有各类基线指标和安全要求,同时也有与云管平台、集中监控平台、运维大数据平台等系统的集成要求,需要对超融合产品进行大量客户化,能否在国内有研发能力也是我行测试超融合的要点。

运维支持能力:近年来我行越来越重视内部自主运维能力和外部运维支持能力,运维支持能力也是一个新产品技术能否受到一线技术人员支持和信任的重要指标。


表格二:超融合产品比较

注释 1 : 3 分:产品表现优秀; 2 分:产品表现良好; 1 分:产品表现一般; 0 分:测试未通过

通过各项测试,我们确认国外两个一线厂商 A 、 C 的功能、性能等方面均表现出色,但在产品客户化能力一项上表现不尽如人意,即产品不能够按照我行的要求进行一定的改造,同时产品价格相对较高。国内大厂 B 倾向于一些计算虚拟化产品和存储产品进行组合交付,与我行对超融合架构开放性要求有一定差距。国内上市企业 E 的超融合产品正处于产品转型时期,超融合产品为其众多产品中的一款,在测试时间段未实现其产品目标。国内超融合专业厂商 D 目前一直专注在超融合方向,其产品在评测中,数据备份的功能点尚需增强,其他功能和性能的细节上与国外产品各有优势,同时在客户需求响应能力上,能够充分理解我行超融合架构与运维大数据平台、集中监控平台、云管平台、统一安全平台等众多行内系统的对接需求,并承诺支持我行的安全基线改造。

根据测试结果以及多条腿走路的原则,我行数据中心超融合产品最后以国内超融合专业厂商 D 产品为主,同时采购部分国外一线厂商 A 、 C 产品作为辅助和比较。

三、银行数据中心的超融合架构应用场景

在进行超融合产品测试的同时,数据中心对超融合的应用场景进行了论证。作为银行 IT 中心,各类业务系统种类繁多,特点和需求不一,系统之间的关联关系复杂,业务稳定性要求较高,业务稳定是银行 IT 中心的第一选择,超融合场景的选择需要结合超融合架构技术和银行业务系统的特点,循序渐进,由简及难,分步骤投入使用。

1 、银行业的业务系统与超融合适用性分析

我行数据中心运行超过 1200 套业务系统,逐一对业务系统进行分析几乎不能实现,必须对业务类型进行归纳和总结。

图一:银行业务系统架构图

银行的业务系统可以分为账务处理体系、业务处理体系、渠道服务体系、服务支撑体系、外联及第三方处理体系、数据服务体系、办公管理体系等 7 大体系,结合超融合架构功能特点,对 7 大业务系统的资源需求变动、业务波动性、数据一致性要求、并发要求进行分析,得出超融合适用的业务系统见表三。

表格三:超融合架构的适用性

在对业务体系进行分类的同时,银行会为每套业务系统的等级进行分类,按照重要程度分为 A 、 B 、 C 、 D 、 E 及其他共 5 类,超融合架构最初以业务不敏感的低级别系统中使用,在非数据库模块中先行推广,不断积累大规模使用超融合架构的经验,确保超融合架构稳步推进,表格四位超融合架构在使用和推广之初推荐使用的应用等级及模块。


表格四:最初使用超融合架构的业务等级和模块

超融合架构在测试过程中,体现可以广泛推广使用的技术特性。但为保证超融合架构在我行应用取得良好的效果,在规范了超融合初期的具体适用范围和适用原则后,我行选择符合超融合技术特点的应用首次投入使用。

根据超融合架构技术特点和特性,及我行各类应用系统的实际情况,列举了我行首批使用超融合架构的应用场景:

开发测试:开发测试需求变化快,交付时间短, IO 并发要求高。

各类渠道和互联网应用:各类渠道接入应用的特点是要求能够快速提供资源,资源发放简单便捷,快速提供高并发 IO ,确保用户大量并发对存储的性能要求。

容器技术的应用:使用容器的应用一般为无状态应用,更多地使用缓存,超融合设备的缓存能够很好的匹配容器技术特点

灰度发布的应用:灰度发布的特点是快速发布,快速迭代,快速撤回。

各类外围应用:各类外围应用包括决策支持系统、信息管理系统等,这类普遍适用于超融合场景。

无集中存储的环境:我行存在 IDC 、环境交易所等托管设备,无集中存储,无法在传统环境中实现高可用性,通过超融合架构能够提高业务连续性。

桌面: IO 并发量大、性能要求高、变化快。

2 、超融合架构与分布式存储(存算分离)架构的不同定位

除了超融合架构,我行也部署存算分离方式的分布式存储,经对比,两种部署架构一些区别和特点如下:


超融合部署模式和存算分离部署的特点非常明显的。对于虚拟化的环境,超融合是更合适的方案,对于海量的非结构化数据,存算分离架构非常适合。对于大型的数据中心,由于数据类型以及数据访问的需求比较复杂,可以根据不同的场景选择不同的模式。

分布式架构的软件定义存储的依旧可以延续传统的存算分离的部署模式。需要强调的是,目前一些一线厂商除了提供超融合产品,也都提供独立的分布式方案,这种 dHCI 的架构也是目前行业的一个发展趋势。

四、超融合的应用效果和经验

总体来说,我行使用超融合架构用于解决一般性通用资源需求。我行数据中心目前以国产超融合产品为主已经使用 4 个超融合集群,运行超过 200 个分区,连续稳定运行超过 1 年,超融合架构的稳定性和普适性在我行已经得到验证,一些使用体验和经验总结如下:

运维的简化:技术上超融合架构简化大幅简化基础架构,减少服务器、 HBA 卡、存储交换机、外置集中存储的兼容性和配置性工作,减少组建资源池过程中存储和存储交换机的变更时间,从而减少交付时间。人力成本上,原有涉及多个领域的技术人员的串行工作,集中在一个操作平台之上并行处理,降低变更复杂度,减少沟通成本。

交付的加速:由于架构的可扩展性,只需跟进近期的需求进行预算和采购即可, PC 服务器到货后,原有集群的扩容和新集群上线可以在更短时间内完成。

产品演进速度快:由于采用了软件加商用服务器的软件定义模式,不仅软件迭代速度快,最新的硬件技术也可以快速地引入系统,提升整体方案的能力,同时具有方便灵活的特点,国内的超融合产品方便进行客户化改造,与中心流程平台、管理平台对接,以原有管理维度进行管理。

五、超融合在数据中心的未来展望

随着超融合的不断发展以及在我行的应用不断深入,未来超融合的应用会有以下多个方向的延展:

  1. 未来超融合技术的发展会更加开放,与更多外围系统对接,形成标准统一接口,包括 K8S 、 Docker 、云管平台等,可以作为企业实现 IAAS 、 PAAS 云的快速途径,同时,功能逐步外延至的 SDN 功能,兼容 SDS 功能等。

  2. 兼容性更强,超融合架构不断发展,对硬件的支持能力更强,包括支持除 Intel 之外的 CPU 和特殊功能部件如 GPU 等,适配更多硬件。

从长远角度来说,现今国际政治经济环境复杂多变,已经波及到 IT 技术领域,能够更多的掌握 IT 知识产权成为大国博弈的焦点,我国 IT 在传统技术领域内尚属跟随者地位,超融合架构作为一种新型技术架构,各产品均有自己的特点,尚未形成明显的垄断,为金融行业 IT 提供一个弯道超车的机会,是 IT 领域技术革新合适的切入点。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

8

添加新评论4 条评论

#lunna163售前, best
2021-01-07 22:22
恩,ding
#wangzimingsq88软件开发工程师, 本钢矿业公司
2020-11-18 15:12
超融合技术都有哪些优越性,与普通融合技术对比?
#hacmp系统工程师, 四川华信富恒
2020-11-12 22:15
挺有参考价值,现在超融合平台很多,特别是国内产品很多,但性能、稳定性、兼容性等参差不齐。
#wlanz_2003系统运维工程师, 银行
2020-11-12 10:41
这么优秀的文章必须顶一个。
Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。

分布式块存储选型优先顺序调查

发表您的选型观点,参与即得50金币。