jeko
作者jeko·2021-01-15 09:40
系统工程师·某省农信

银行数据中心高端存储选型的方法论和经验指导

字数 5341阅读 5482评论 1赞 9

一、前言

存储设备作为银行数据中心内最关键的硬件资源,其重要性不言而喻。随着数据中心发展规模的不断壮大,存储设备升级扩容、更新换代甚至是存储架构的整体变革是存储工程师工作内容中重要的一环。本文通过对存储选型自身的需求分析、存储选型指标体系的设计建立以及最终进行存储产品的选型指标参数对比方面进行阐述,希望能对存储工程师在存储选型工作上提供一定的方法论和经验指导。

二、背景

作为存储管理员的你在向领导汇报了目前数据中心存储老旧、故障率高、容量不足、品牌众多、管理繁琐后,领导给你下达任务了:“小X啊,看来我们的存储架构需要升级扩容了,你去做一下存储的选型分析报告交上来我看一下”。于是乎,选择题摆在了面前,该推荐哪个品牌的哪款型号的存储呢?IBM、HDS、EMC、华为?HDD、SSD、NVMe?两控or四控,是否需要支持四控三坏?存储双活架构、两地三中心异步复制,其他软件特性是否需要支持……作为技术人员,脑海中冒出的首先是这些参数规格或者产品特性,那么该如何有条理有体系的开展一番存储选型工作呢,下面将为大家一一道来。

三、存储选型需求分析

在开展存储选型工作之前,需要制定一套存储指标考量体系,而建立这套体系的前提是对自身存储使用的需求进行充分剖析,从中提炼出必须满足的基本项和可选的加分项,为接下来制定指标体系做准备。根据我们存储使用和维护的多年经验,存储采购时需要考虑的需求基本上包含在以下各个方面。

(一)稳定性

对金融行业尤其是银行的数据中心而言,数据存储动一发而牵全身,存储架构的稳定性和可靠性是数据中心存储选型最基本也是最重要的需求。稳定性和可靠性体现在几个方面,一是存储架构冗余度高,各个部件均为冗余设计、支持热插拔,任意部件损坏均不影响主机上业务运行;二是存储设备的可维护性高,各个部件的维修和更换均为在线操作,控制器、硬盘、接口卡等部件都能在线升级微码,轮流重启时不可以影响到上层业务。

(二)产品架构

选择集中式存储还是分布式存储是当下做存储选型时的一大热门话题。集中式架构的存储采用的块机制,以块为单位实现数据的更新和锁机制,其机制跟数据库管理数据文件的方式可以说是比较协同一致,那么性能及安全也就自然可以保障。这也是大家选择它那么多年的理由。分布式架构现在常见的有两种做法,一种是基于对象存储机制实现的分布式架构,一种是基于分布式文件系统实现的分布式架构。对于这两种架构的选择,需要结合上层应用配套考虑。

对于高IO同时对时延敏感的核心或者其他重要系统,高吞吐低时延的集中式高端存储更为合适,安全性和稳定性也经过多年磨练。同时,现在企业级高端存储内部架构都是支持在线横向、纵向扩展的,因此从某种意义上来说也是分布式。企业级高端存储既具有分布式特性又具有集中管理的优势,可以说是分布式集中存储。本文接下来的讨论内容也以集中式存储为主。

(三)性能

对银行数据中心而言,存储建设事关重大,一旦建设完成,需要保证至少 5 年内上层应用不出现存储层的性能瓶颈,随着闪存技术的快速发展,目前全闪存存储已经成为各家主流存储厂商的标准配置,同时结合控制器和硬盘框的NVMe技术应用,IOPS已经从传统机械硬盘存储的几万、十几万,上升到几百万级别,性能得到极大提升,因此在如今形势之下采购新存储时,全闪存储已成为首选,如果成本可以承受,配备NVMe SSD的全闪存储是最佳选择。

(四)可扩展性

存储设备必须具有灵活的体系架构,随着容量需求的增加可以按需进行在线扩容,包括存储柜内的纵向扩容和多柜的横向扩展,扩展之后实现存储资源的在线自动平衡。

以机械盘为数据载体的上一代存储容量小、可扩展性差。而随着存储技术的飞速发展,硬件层面上闪存盘的普及使得单台高端全闪存储的性能和容量极大提升,再结合控制器在线横向扩容等技术的应用,单套存储架构的可用容量达到PB级别,基本能满足大行的某套应用或者中小银行的数据中心未来五年的容量需求。

(五)容灾能力

存储架构的容灾能力指的是本身高可用性之外对于各个灾备特性的支持,包括存储层双活以及两地三中心架构的支持度,双活仲裁机制是否可以保证常见故障场景下业务的连续性和数据不丢失。

(六)标准容量下的成本

对于银行来说,高端存储选型一个重要的参考就是单位TB 可用容量下的成本,能够花更少的钱买到更多的容量,一定是我们采购过程中的一个重要指标,这就对存储设备的架构能力和存储厂商的商业模式提出了一定的要求,最终的选择需要根据客户实际情况去做抉择。

计算成本时除了硬件配置成本,还需要考虑软件许可成本和日常管理维护成本。

(七)技术支持能力

我们在做存储选型时千万不可忽视存储厂商的技术支持能力这一点。采购和交付只是存储生命周期的很小一部分,交付后的运维才是运维人员最主要的工作。特别是对运维能力不强的中小银行来说,存储厂商自身的研发实力以及后期服务能力,是否有未来数年的规划支撑客户的业务需求变化,是否有软硬件的研发能力,在遇到个性化需求时或需求变化时能够有跟踪变化的能力,是否有本地的服务力量,对客户的响应是否及时且有效,这些都需要考查和了解。近两年,某些传统存储大厂随着战略的调整,在国内的存储技术服务力量明显削弱,我们在做存储选型时需要注意这一点。

(八)安全自主可控

银行数据中心的产品和技术往安全自主可控方向发展一直是监管部门的要求。而随着国内存储厂商技术的不断提升,目前国内某些存储品牌已经得到业界公认和实践,能够满足数据中心建设的各项指标需求。因此,在满足相应需求的情况之下,可以优先考虑国内存储品牌。

以上八个方面基本涵盖了我们存储选型可能会考虑的需求,当然每家单位的需求侧重点可能有所不同,我们可以基于以上方面的需求分析,标注自己所采购存储哪些需求是必须满足的,哪些是可以作为加分项。

四、存储选型指标体系设计

在对自身的需求进行了充分分析之后,可以基于分析结果制定相应的指标体系。

基于如上所示选型体系图,我们可以按如下思路进行存储各个特性和指标的选择。
1、产品架构选择集中式还是分布式。如果上层应用有特定的分布式文件存储、对象存储或者海量数据存储需不断扩展的需求,同时对存储稳定性和时延要求不高的,可以选择分布式存储。对于银行系统中其他大多数应用,包括核心系统、前置系统等应用,具有高稳定性、高吞吐量和低时延等特性的集中式存储可能是更好的选择。

而对于集中式存储本身的产品架构,有两个方面需要在选型时进行考量。

第一,当下的高端存储架构是各控制器工作在对称A/A模式, 各控制器性能负载稳定均衡,ALUA(Asymmetric Logical Unit Access)架构、Active/Passive架构则不应被认为是高端架构。

第二,端到端的NVMe架构。SSD代表了存储的未来,而RDMA和RoCE则是高效存储网络发展的未来方向。日前有媒体发布消息,中国银行已经完成了华为RoCE网络方案的先行部署,并成功的完成了华为OceanStor Dorado系列全闪存在NoF环境下的技术测试,并成功商用。因此高端存储具备端到端NVMe能力将成为未来存储选型时的一个重要指标,大家可以作为一个参考,这可能是未来的趋势。

2、稳定性方面,主要从两个维度去考量。第一,整个存储系统要具有全冗余与安全性设计,没有单点故障。包括控制器、缓存、硬盘、前端口、后端口、电源、风扇、电池等部件均具有冗余,硬件维护对上层主机访问无感知。作为存储系统中最重要的两个部件的控制器和硬盘,有部分存储产品已经可以做到支持控制器四坏三、硬盘可容忍两块甚至三块同时损坏,据了解华为最新高端存储甚至可以支持控制器八坏七。第二,各部件可以进行微码在线升级,对主机访问无影响。特别是关键部位控制器,已有最新存储产品可以支持控制器升级微码不重启。

3、性能方面,如今主流高端存储的基本配置规格为四个控制器,CHACHE数TB甚至更高,主机接口模块FC口速率达到32GB。同时,闪存盘凭借着大容量、高IOPS、低耗时和低返厂率已成为主流配置。而对于不差钱的用户,可以选择配置NVMe SSD盘。

4、扩展性包括纵向扩展和横向扩展。纵向扩展指的是在单个柜子中增加硬盘框和前端接口卡,从而实现容量和主机接口数量的扩容。随着闪存盘的普及,单盘容量规格达到3.84T或者7.68T,因此单个硬盘框体积相对于上一代存储大大缩小,存储单柜可以扩展的硬盘框数量也大大增加。横向扩展则是指通过横向增加扩展柜增加控制器、CACHE和硬盘框,实现容量和处理能力翻番增加。某些存储产品已经可以在线扩展超过12个控制器, CACHE可实现跨引擎共享,实现缓存多副本技术,提高高可用性。

5、容灾能力。集中存储的容灾特性主要体现在三个方面。第一,支持免网关双活A-A架构。第二是数据同步和异步复制功能,可以与双活特性实现免网关的双活+异地容灾的三副本数据容灾架构。第三是快照功能。这三个方面的功能是当前采购高端存储时尽量要求满足的特性。

这里需要重点突出免网关双活A-A架构能力。免网关,顾名思义就是不依赖于VPLEX、SVC等存储网关设备,而直接使用存储自身的机头进行两台存储之间的IO双活。比如,据笔者了解,华为公司的HyperMetro就属于免网关解决方案的主流技术之一。

上一代存储容量小、可扩展性差,因此对一个数据中心的发展而言需要配置的存储数量会逐渐增多,而由于分批采购会出现多家不同品牌中标,因此单个数据中心可能会大量异构品牌的存储。在这种情况下,要想实现存储双活,必须依赖VPLEX、SVC等存储网关,利用存储网关兼容异构存储、方便异构存储之间数据迁移、方便扩容等优点。因此直至现在,仍然存在不少客户使用存储网关管理多个品牌的存储以及实现存储双活。

然而,随着存储技术的飞速发展,闪存盘的普及、NVMe技术的采用以及控制器在线横向扩容等技术的应用使得单台高端全闪存储的性能和容量极大提升,可用容量达到PB级别,基本可以满足一定规模数据中心5年左右的使用量。同时,存储双活软件技术在存储本身的应用使得直接采用两台存储进行双活成为可能并开始逐步普及。免网关双活架构的优势是消除了对存储网关的依赖,减少了故障点,一定程度减小了IO时延。

那么,何为“A-A双活架构”呢?这里的A-A是指双存储主主架构,区别于传统的主备“双活”架构。也就是说两套存储系统的双活LUN数据实时同步,且两套存储系统能够同时处理应用服务器的I/O读写请求,面向应用服务器提供无差异的主主并行访问能力,这才是真正的双活架构。

6、成本主要包括硬件配置成本、软件许可成本以及后期管理维护成本。

7、技术支持能力主要体现在该厂商的存储产品研发能力和本地技术服务能力。

8、自助可控。在国家提倡科技创新和金融行业IT国产化战略的背景下,在存储产品各项功能均满足的前提下,可以优先考虑已经经过行业考验的包括华为在内的国产品牌。

最后三项内容虽少,但往往对存储采购过程影响巨大,需重视。

五、存储选型指标参数表

在分析需求、设计指标体系之后,我们把各项指标进行拆解和分类汇总,从整体架构、硬件配置和软件特性等维度得出具体的参数表,然后对照自身需求,运用此表去筛选候选存储产品。下表仅为笔者举例,大家可根据自身需求进行添加或删减。

六、存储选型总结

当我们接到存储选型任务时看似由于选择太多无从下手,但是在运用了上述方法论,经过对存储使用需求进行充分分析和解剖、选型指标体系建立和运用之后,存储选型思路豁然清晰,最后剩下的就是候选产品对比筛选和商务流程了。

笔者所在银行于半年前正是运用了本文描述的存储选型方法,开展了存储选型相关工作,最后采购了3台华为最新高端全闪存储OceanStor Dorado 18000V6,搭建了“本地存储双活+同城异步复制”的3DC架构。生产中心使用两台Dorado 18000V6实现免网关Active-Active双活架构,主机IO通过多路径策略写到任一台存储并自动实时同步到另一台,任一台存储设备故障均不影响上层业务系统运行。同时,生产中心这两台存储与灾备中心的一台Dorado 18000V6之间进行数据异步复制,从而实现生产数据三副本的高可用架构。这套存储架构将用于支撑即将新上线的多个重要数据库和应用系统,为支持我行金融业务的飞速发展发挥重大作用。

华为最新一代高端存储,除了能满足我们的各项基本功能需求之外,有几大特性是我行比较看重的产品亮点。一、该存储系统采用控制引擎内四控全互联架构,跨引擎采用交换互联技术,容忍单控失效,双控同时失效业务不受影响,极端情况容忍三个控制器失效。在横向扩展到双柜的情况下,甚至支持控制器八坏七。二、前端共享端口,通过芯片实现与引擎内四个控制器互联,任意一个控制器故障,通过前端共享芯片实现1秒级切换,主机链路不中断,业务无感知。三、软件架构实现前端到后端的A-A均衡架构,前端共享端口,后端共享,LUN负载均衡,LUN无归属,实现单LUN也能发挥四控并发性能。当然,各家需求不一定相同,可参照本文上述方法进行考量。

希望本文所阐述的方法和思路可以给大家提供一定的参考,做好高端存储采购流程中选型工作,保障系统长期健康平稳运行。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

9

添加新评论1 条评论

DongxinDongxin系统架构师某银行股份有限公司
2021-03-10 16:53
感谢专家的经验分享,以后就可以存储选型上根据你提供的一些参考方法论以及选型指标进行选型和对比筛选,给我们起到了一个很好的帮助。存储选型一定要清楚是什么类型业务,有哪些数据种类,再考虑存储选型,切不可盲目!
Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广