华为存储CLUB
作者华为存储CLUB·2022-05-05 11:26
CLUB专员·华为存储用户俱乐部

云环境下,如何基于稳态、敏态应用进行存储服务整体规划分享探讨—— 华为存储 MVP 赋能活动互动环节探讨总结(4月23日)

字数 8239阅读 2546评论 0赞 1

近年来,随着银行业数字化转型不断加速和金融科技的蓬勃发展,银行业积极探索尝试金融科技创新应用。在新的业态下,基于互联网产品的快速投放需求和交易流量大幅攀升,传统的 IT 投入和研发方式已显得难以应对,互联网金融产品灵活多变的特性对金融科技的支撑能力提出了更高的要求和挑战,“数字化转型”、“金融科技创新”已成新金融时代的关键词。

自 2014 年 7 月 Gartner 提出对应稳态和敏态业务的双模 IT 概念,国内众多厂商和银行业积极开展了诸多行业实践,稳态、敏态业务,一个维稳一个图新,双轨的 IT 架构共同推动企业业务的快速发展。特别是 2019 年 8 月,人民银行科技司发布了《金融科技( FinTech )发展规划( 2019-2021 年)》,指出要合理布局云计算,构建集中式与分布式协调发展的信息基础设施架构,为银行金融科技建设指明了方向。

稳态和敏态业务各有什么特点,分别对存储架构有哪些要求?在规划存储架构时应侧重考虑哪些功能和性能指标?容器云对存储平台对底层数据存储有哪些要求?双模存储架构是否可以统一管理?存储管理人员应该具备和培养哪些能力?

本期交流活动重点围绕“ 如何分析在云环境下敏态和稳态业务的存储服务特性并选择适合的存储架构? ”和“ 如何统筹规划在云环境下不同业务负载对存储服务的使用? ”两大议题展开研讨,特别邀请金融行业专家、华为专家与多位银行业同行共同探讨,本文对活动中大家分享的内容进行了梳理,希望能够给大家带来参考借鉴。共分为四个部分:业务特性及场景、存储方案及规划、存储选型及测试、存储管理及运维以及本次交流达成的共识。希望通过交流活动理清思绪,帮助更多专家在云环境下,双态业务的存储架构选型,提供更加清晰的选择决策逻辑和经验参考、从容应对建设挑战。

交流达成的共识总结:

1、双态: 即业务系统特征的稳态、敏态。

2、四景: 即银行业常见的存储差异化需求场景。联机交易、多态共享、非结构化、超级扩展。

3、三法: 行业领先存储厂商根据银行业普遍的四个存储差异化需求场景,针对性设计的解决方案即企业块存储、企业 NAS 、分布式对象存储。行业存储专家们根据行内实际情况,结合成熟的三个解决方案和方法,规划云环境下的整体存储架构。

4、六效: 云环境下的存储架构规划需要实现六个效果,即性能提升、功能稳定、灵活拓展、管理便捷、绿色节能、节省空间。

一、 业务特性及场景

1、双态业务对存储分别有哪些需求和差异?

某城商行用户 提问: 稳态、敏态业务对存储分别有哪些需求,有何差异?

用户专家 彭毅 回复:

对于稳态业务来说,需要存储架构具备更强的性能(数据中心存储全面闪存化,更高效、更节能)、更高的资源利用率(全局精简,重删压缩, EC 配置等)、更可靠的业务连续性(本地高可用,容灾体系,业务连续性保障);敏态业务来说,侧重更敏捷的资源发布和回收(云平台全面接管存储资源发布)、更弹性的资源扩容(容器应用的弹性扩容)、更实时的资源监控(存储监控管理“一张网”)。

2、如何构建双态下的存储架构体系?

某城商行用户 提问: 结合技术和经济等整体因素,城商行应该如何有效构建云环境下敏态和稳态的存储架构体系?

互动答疑专家 蒋亮亮 回复:

在银行现在稳态业务和敏态业务其实是两块,一是稳态业务主要是适用于银行的核心系统类,这一块对于存储的要求主要是在稳定性性能和可靠性方面要求比较极致。而现在这一类场景其实推荐传统的,比如说高端存储多控多活的架构是比较适用。针对于敏态的业务,特别是在云平台下,对于性扩展性、敏捷、成本这方面考虑可能会更多一些。所以这类分布式存储,比如作为云底座,包括云上各类业务的内容存储,类似对象存储这一类,容量需求会非常之大,所以这一类是和对象存储是一个比较好的选择。

用户专家 彭毅 回复:

我行目前在敏态环境下,主要也是发展一些分布式的 NAS 存储,还有一些对象存储。

这种业务发展其实很不可控的,它不在我们的掌控之内,发展得非常快,在这种情况下,不仅要从技术上考虑,可能还要从另外一些方面,比如说采购方面一起考虑。通常来说行内的商务采购周期一般都比较长,但存储需求增长非常快,可以从商务采购模式上进行一些变化,如通过框架集采的方式,尽量弥补存储容量的快速增长需求。对于容量的一个控制监控我觉得确实非常必不可少的。

华为专家 武装 回复:

1 、云外的稳态业务已经比较清晰,以经典的 IOE 体系为准,重点是信创的考量,而引起更多争论的是云内的存储如何选择。需要提前考虑敏态业务的块存储规模和需求是什么?到底扩展性有多大?结构化数据,有没有实际扩展性诉求?选型的本质是面向需求,基于厂商能力的适配性选择;要朝向真实的业务诉求,业务负载,业务规模,而不是个别风向或者所谓的‘趋势’。

2 )就目前很多大行的云, Region 代表数据中心或者较大的一块独立业务,而 Region 内部是按照 AZ 来建设每个 IaaS 单元的,包含相应的计算资源,多为 100~150 服务器,网络资源和块存储资源。

① 块存储都被分割到各个 AZ 之内,国内金融行业不存在跨 AZ 的块存储;而 AZ 内块存储的规模都是固定的,一个 AZ 常规只有几百 TB 。然后 IaaS 层以 AZ 的规模进行扩展,而每个 AZ 的大小最初都规定好了,中间也不存在扩容场景 ,从成本角度看,分布式块的三副本,还是明显提高了客户的采购成本的。我们交流过很多银行的客户,在分布式块上,都是三副本部署方式,并不经济高效。而在这个几百 TB 的规模上,企业存储无论是性能、时延、采购成本,自身可靠性,成熟度,灾备体系完整度上,优势极为明显。主要承载之前云外的虚拟机承载的相关业务。

② NAS 存储和对象存储,多为整个 Region 内部,所有 AZ 可以共享的资源部署;其中 NAS 存储主要是业务共享性需求,近一段大量用于容器类业务对接,以确保容器类应用可以在不同 AZ 的计算资源体系上拉起。而对象多用于备份、归档资源池,长期存放数据。

3 )从华为存储的调研和实践经验上,尊重客户的历史选择,但是,更尊重实际客观的真实需求。分布式化是业务分布式,而并不是存储分布式,块存储明显不适合分布式;不是为了分布式而分布式,而是采用以满足需求的最成熟最优成本的方式进行考量;互联网的大规模并不存在于当今的金融行业或者银行业,而块存储这个范畴就更是延续了传统业务的路线。

通用的存储架构体系:企业存储:高可靠硬件 + 企业存储软件的耦合性设计,优势在于小 IO ,小文件的高性能时延访问,灾备方案成熟,产品能力成熟,久经考验;分布式存储( SDS 软件定义存储):软件 + 通用硬件,适用于大 IO ,大对象的读写访问,大规模的扩展,通过标准硬件的独立采购来降低客户采购成本;

主持人 昼者 回复:

对于中小型金融机构来说,跟大行的很多的商务采购方式、技术人员数量、业务需求场景都有一定差距,我们还是要务实一些。

我行 19 年同城双活中心建设时,在核心存储规划选型时有几个方面的经验:

一是一定要做好整体的容量业务容量的整体的预测和相关一些规划。虽然是敏捷场景,按照现在中小型银行整体的业务的类型情况来看的话,敏捷业务相对来较少,刚刚处于起步阶段。很多国有和股份大行的纯敏态业务虽然发展比较快,也比较成熟,但与互联网企业相比还是有很大差距。因此,从现阶段来说,虽然是敏态业务,但是它的增长率比在短期内难以成指数倍数的增长。因此,在敏态业务存储需求的规划上,也可以设定比较合理的这种存储容量增长的这种需求。

二是做好存储容量的监控。在当前的行业情况下,业务发展、应用系统与基础架构之间的信息不对称比较严重。例如在业务发展层面,今年可能重点推广,发卡量暴增 300 万张,而业务和应用人员可能都没有预估发卡量的增长所带来的系统压力,如交易明细数据的快速增长和存储扩容的激增需求,导致存储管理人员措手不及。

三是在存储规划选型时,选用高端低配的存储产品。尽量选用高端存储产品型号,把配置我们可以稍微略低一些,配置主要指的是存储容量容量的这种配置。一方面它的技术迭代的周期会更长,那么我们自身的维护人员的压力就会更小。另一方面,因为从我们中小型银行机构来说,我们很难采取集采式或者一次性采购几年的空间需求,一般来说还是以项目为导向。

因此,我们在选型时可以采用高端低配的策略,配合日常良好的容量监控,以年为单位或以项目为导向进行采购来实现灵活扩容,如此基本上可以满足中小型银行的对于存储容量的需求。

3、云环境下是否可以利旧传统存储?

某城商行用户 提问: 对于云环境下的敏态业务,传统的 NAS 存储和 SAN 存储是否仍旧适用?

互动专家 蒋亮亮 回复:

传统的 SAN 存储其实是更适合稳态业务,比如说传统的 Oracle 数据库这一类。云平台下,传统的 NAS 存储在内容存储文件小 IO 的场景下,比如说业务的文件共享,然后包括容器,在这类环境下还是比较适用的。

4、敏态业务所需存储的特点?

某保险用户 提问: 敏态业务存储架构选型的侧重点是什么?会存在哪些风险点?风险应对措施又是什么? 敏态会选择 SDS 存储,运维风险会不会有特别的问题 ?

互动专家 蒋亮亮 回复:

主要还是根据业务类型来区分,在敏态业务场景,也需要结合具体的业务场景,是作为 IAAS 的云底座,还是作为共享存储,或大容量的内容管理等。所以存储的选型还是不能一概而论,具体的风险可能是性能问题,也可能是容量扩展问题。

对于 IAAS 云底座方面,其实用传统的 VMware 的 VSAN 、华为的分布式存储、集中式存储等,只要提供能对接上接口也都可以。在块存储方面需要综合几点看,对于扩展性,可能是分布式存储有一些优势,但还是要看规模,在百 TB 规模下,其实在很多场景,集中式存储在管运维管理,成本,包括机房的空间利用上其实是有优势的,但分布式存储的运维复杂度更高,对运维人员的能力要求也会更高一些。

从目前业界存储厂商的产品来看,分布式存储的成本其实也是需要比较的,也不一定比集中式存储更好,但如果行内技术人员有一些技术基础,比如在存储功能上有自己的一些优化,或者是一些其他功能特性的自定义的开发,选择分布式存储可能是一种更好的选择,否则集中式存储可能更加便于管理。

二、 存储方案及规划

1、如何规划敏态业务存储容量?

某保险用户 提问: 稳态业务存储需求还相对好评估,敏态业务存储需求相对比较弹性,在资源有限的条件下稳态、敏态业务需求下存储资源容量如何更加合理规划?

华为专家 郭洋 回复:

1 、以目前对金融行业的理解和客户调研情况,敏态业务的规模并没有完全不可控制的弹性诉求,还是针对业务做相关的容量规划

2 、按照业内经验,按年度业务需求和业务部门进行合理对齐,留有一定余量

3 、针对存储产品选型,要确保可以平滑扩容,且扩容可以做到对业务完全无感知

从运维视角,需要经常性关注容量增长曲线,和容量增长预测曲线,并密切关注容量告警,以确保有足够时间支持扩容

主持人 昼者 回复:

我的个人理解,存储容量的规划不仅是技术问题,也是管理问题。

一是从企业战略和业务出发。虽然业界一直宣传,科技赋能业务,甚至引领业务。但在目前阶段,绝大多数金融机构很难实现,更多的可能是科技合能业务,或使能业务。因此,我们的 IT 规划,包括容量规划一定要从企业的战略和业务出发。例如今年业务重点发展哪些方面,业务种类、客户数等有哪些目标等,再逐步分解为 IT 需求。

二是充分参考历史数据。历史数据是容量规划的重要指标,科学合理地分析历史数据,更真实、更有参考价值、也更能有据的进行扩容采购。

三是向上管理。尽量采用领导、业务部门能够听懂和可接受的方式,沟通容量的管理策略。

2、华为存储有哪些特性功能?

某城商行用户 提问: 华为分布式存储使用的是那种技术?

华为专家 郭洋 回复:

华为分布式存储不是基于开源软件的,纯自研的技术,包含了文件、块,对象的存储,块基本是能力的对接;文件做 HPC 领域的性能优化,在主机侧做私有的客户端来提升整个带宽的性能,基于大文件场景;对象存储支持功能有跨站点 EC 归档,其他运营商用户跨站点多活的技术;支持海量扩展,和企业存储是互补的场景。

3、容器场景使用何种存储方案?

场外问题: 容器云平台对底层数据存储有哪些要求?如何选择和规划容器云环境下的存储架构?

参会用户 rechen 回复:

还是要看各家行对容器云平台的架构约束。从我行实践来看,这些应用基本上都是以无状态为主,对存储要求不高。也有一些特殊需求,如 GPU ,其实 GPU 资源池跑得也是容器化,主要进行机器学习,运行期间会有数据共享,所以我们也是用的 NAS 存储,通过应用层的 K8S 机制拉关。

我们也在慢慢探索将数据库类往容器化发展,例如 MYSQL 等,这些数据库在容器化下还是使用的块存储。

所以在容器化趋势下,首先分析工作负载的类型,目前以无状态为主; GPU 场景使用 NAS 存储,中小型数据库我们在尝试分布式块存储。

主持人 昼者 回复:

在选择容器环境下的存储架构时,除了技术维度之外,还需考虑以下几个维度:

一是管理复杂度。对于存储资源池的统一管理,技术栈多了,管理的复杂度会指数倍数增长。

二是产品成熟度。在选择存储的产品时,要同时考虑产品的可用性、稳定性,服务的集成度,包括容灾等相关一些功能。

三是研发自主度。对于中小型银行来说,这是比较重要的考虑因素,要根据行内自主研发的能力,做好研发资源的一个平衡。

我个人得的感受是在基础架构这个层面,还是更建议“上帝的归上帝,凯撒的归凯撒”,应用层面就通过应用层面来解决。存储底层的计算和存储资源就通过底层来解决,尽量使用比较成熟的存储和服务集成度比较高的方案,尽量减少研发的压力,以及我们自己的技术架构人员的维护压力。

4、云环境下如何选择存储架构?

某城商行用户 提问: 云环境下选哪种存储架构比较好?

华为专家 李毕生 回复:

云环境下,华为的建议是:

1 、裸金属服务建议用 FC + 企业存储,保持一贯的稳定与成熟,

2 、虚拟机服务按照 AZ 粒度可以用 IP SAN ( RAID 利用率高,时延低、灾备成熟、采购成本低)或者分布式存储(三副本,利用率低,技术新、采购偏贵)

3 、文件服务使用企业 NAS ,尤其是容器平台共享文件用企业 NAS 备份资源池采用对象存储

三、 存储选型及测试

1、不同类别存储的成本差异?

某城商行用户 提问: 运维和采购不分家,敏态和稳态存储采购时,同容量情况下,集中式架构,分布式架构成本投入比,差异的百分比是多少?

华为专家 郭洋 回复:

1 、需要基于点配来计算相关的商务信息,从 AZ 内几百 TB 的现网数据来看,目前企业存储块在商务上更优;

2 、单独针对分布式块存储而言,在采用三副本的条件下,满足同样可用容量的诉求,相应的物理裸容量和硬件成本基本是相应企业存储的 3 倍以上。

以目前大行的采购看,即使分布式存储的毛利诉求不高,三副本造成的整体采购成本也比相应的企业存储高 50% 以上。

2、存储选型测试需要注意关注哪些内容?

某保险用户 提问: 小保险公司目前处于容器云平台 POC 测试阶段,那么存储在这个阶段可以对容器测试提出哪些要求?怎么参与到容器的建设以便我们存储后续的运维?

互动专家 蒋亮亮 回复:

一是在测试阶段,首先要保证它能用,其实容器云平台使用的不同的 k8s 版本对于存储接口,比如 CSI driver 的这些版本的要求都不一样,这可能需要重点要考虑的兼容性问题。

二是需要考虑性能,比如你存储可以支持多少个容器挂载,响应时间以及吞吐量,需要做评估是否能满足业务要求。

三是功能性,例如存储管理能力,需要关注所监控的内容、是否能提供运维监控的功能,以及满足业务相关要求。

四是稳定性和可靠性。跟集中式存储相似,也要重点考虑存储产品的容灾功能。

3、数据库存储如何选型?

某证券用户 提问: 容器场景使用块、文件、对象协议存储各自有什么优缺点,各自支持功能性差异是什么样的?

华为专家 郭洋 回复:

容器下块存储就是单 POD 共享;文件存储是多 POD 共享,且可以控制权限;对象存储也可以多 POD 共享,但是不能改写,比如一个文件里面的部分数据他是不能改的。所以一般就是用于大容量的备份。

四、存储管理及运维

1、云环境下使用何种分布式存储方案??

某城商行用户 提问: 针对 PaaS 平台下 Mysql 、 Redis 进行数据持久化选择哪种架构的存储的比较合适?

华为专家 郭洋 回复:

1 、从现网的使用经验调研来看, MySQL 的对接方式是多种多样的,企业存储,企业 NAS ,本地盘、分布式块存储,都有不同客户进行选择。

1 )早期主要是对接企业存储,在数据库技术本身相较于 Oracle 不够成熟的情况下,客户更希望利用企业存储的成熟来确保数据的安全性与可靠性,后续,随着 MySQL 的不断成熟,以及 MySQL 主要承担的是一些非关键的数据库,逐步出现了本地盘的部署模式。

2 )目前主流配置方案是本地盘和企业存储,从性能出发块存储适用端到端 NVME 技术,前端适用 NOF ,后端使用 SSD 盘,性能可以和本地盘相当。但是使用本地盘至少 3 副本,使用块存储可以降低副本,存储提供高可靠,低成本,而且可以利用块存储本身诸多特性,以及存储的容灾技术。解决同城半同步退化的问题

2 、 Redis kafka 等中间件看客户使用的规模和可靠性诉求,集群化部署又是重要业务,建议使用 NAS 存储,便于容器化后在不同计算资源上拉起,以及跨多服务器的共享

2、云环境下如何进行分级存储规划?

某城商行用户 提问: 云环境下,有日志数据、业务系统交互文件、持久数据等等,怎么做存储规划?分布式 or 集中式?不同类数据对 IO ,时延,容量等有不同需求,存储怎么做分级存储?

互动专家 蒋亮亮 回复:

谈一下我们行的实践,因为各家行可能数据量这方面可能不一样,所以说这个还是要结合业务的一个发展和数据量来做一个评估。

我行的实践是对象块、文件这一类是每个集群是分开的,因为我们目前的数据量是比较大。针对具体的业务场景,如果是分布式块存储,如给云底座做虚拟机的底座,或者给数据库用,是混用,还是分离,需要看具体的业务需求。虚拟机的话一般还是好在分布式存储上比较多。超融合可能还是在业务规模不是特别大的场景下可能会更多一些,如果集成规模比较大的话,在计算和存储分离的这种架构还是比较多一些。虚拟机提供了一层虚拟化之后,在迁移和维护方面可能更便捷,在裸金属上可能是在性能方面更有优势。

从接口层面来看,可能 vmware 可能更加中立,接口更加开放,生态更加全面。这就需要从成本、性能和运维管理等各方面综合评估,总体来说云环境下的存储选型,还是要结合行内规划的技术栈来选择。

3、生产环境的全闪存储是否可以使用超分功能,有哪些注意事项?

某城商行用户 提问: 生产环境的全闪存储是否可以使用超分功能,有哪些注意事项?

用户专家 彭毅 回复:

我们前两年把存储资源池化以后,存储资源超分比 200% 的,把超峰定在 200% 。但数据量的增长也变得非常不可控,特别是超分比高了以后,队伍运维人员的压力其实是非常大的,监控管理是非常重要的,目前通过完善的监控以及提前商务采购,把超分率已经往下降到 150% 。

我觉得监控是必不可少的,通过监控也可以去预先的提示你,预先的去帮助你分析你什么时候该去扩容,我大致这两点。

互动专家 蒋亮亮 回复:

目前全闪存储的超分功能相对比较成熟了,主要是控制好超分率,我行实践来看,一般控制在 60%-70% 作为安全范围,在此前提下超分的风险还是比较可控的,主要还是匹配业务增长速度和容量监控。

4、如何开展存储运维管理?**

某城商行用户 提问: 请问华为 DME 平台对异构存储的监控兼容性如何?能准确监控到如 IBM 存储的硬软件故障告警吗?

用户专家 彭毅 回复:

我行是提需求让华为定制化做的,现在是包括了 IBM SVC , emc vmax 、 unity ,华为本身目前都可以对接,告警都可以监控。目前我们对接的需求是想要把存储和应用系统能对应上,以帮助决策和故障定位。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

1

添加新评论0 条评论

Ctrl+Enter 发表

本文隶属于专栏

活动总结
活动总结是社区交流活动内容的总结及延伸,为大家提供了社区专家们丰富且高水平的理论知识、实践经验以及常见问题的最佳解决方法,非常值得大家收藏学习。

作者其他文章

相关文章

相关问题

相关资料

X社区推广