light_hu86
作者light_hu86·2021-12-22 11:07
系统工程师·某省金融

存算一体 vs 存算分离,银行交易类业务系统分布式块存储技术路线选择总结

字数 27818阅读 4915评论 0赞 2

导读:

近几年随着银行行业的快速发展,各银行公司对IT的投入和应用业务对IT基础架构的要求也越来越高,而存储和计算作为数据中心最为核心的基础资源的两部分,其存储架构设计、高可用性、性能、可扩展性、可维护性等因素均对应用业务的稳定运行起着非常关键的作用。

银行公司类业务的特点对应用数据库的计算能力要求较高,而银行交易类业务系统向分布式存储路线发展也愈发重要,且大量业务应用对计算和存储的能力要求较高。为了高效、安全、完整地完成存储和计算的建设任务,到底是用“存储和计算一体化”,还是用“存储和计算分布式 ”需要我们结合不同业务系统的类型及应用场景特点有针对性地制定方案来开展相关工作。另外的一个难点是需要在存算分离与存算一体转换的过程中平稳、安全地完成存储架构环境的换代升级和扩容工作。面对存储品牌、型号变得越发频繁复杂化,新一代存储架构的规划和建设已成为许多银行新的挑战。

本期交流活动重点围绕分布式块存储架构设计如何选型?技术路线如何抉择?性能如何优化提升?运维管理过程中出现的问题如何处理?国产国芯信创如何规划?挑战会有哪些?希望通过交流活动理清思绪,帮助更多准备改造和建设分布式块存储的银行提供更加清晰的选择决策逻辑和经验参考、从容应对改造和建设的挑战。

一、分布式块存储就存算一体和存算分离,如何进行相应场景的选型?

1.1 存算一体和超融合有什么区别?

现有环境都是存算分离的,主机、存储及链路都采用了双活等方式实现高可用,存算一体如何保障业务的连续性。

嘉宾:李静 产品解决方案总监 , XSKY
现阶段提到的存算一体和超融合基本上同一个概念,部分厂家对超融合定义包含内容更加广泛,不仅仅是计算和存储,同时也包含网络、防火墙等等,其中最为核心的就是计算和存储融合部署,所以简单理解可以说是一样的,只是名称不同。

针对存算一体的高可用,首先内部是多副本或者EC校验实现磁盘和服务器级别故障,另外可以实现跨数据中心的延展集群,第三方机房节点做仲裁,实现机房级别的故障保障。

嘉宾:light_hu86 系统工程师 , 某省金融
存算分离是基于传统架构的存算分离,即以集中式存储为存,与前端提供算组合成为存算分离架构。一般认为存算一体和超融合架构区别不大,。存算一体底层以多副本和ha的形式确保数据的连续性。而在设备层时,确实会存在着虚机的重启和应用的启停,可通过集群的方式部署,以及重要虚机通过采用如vsan的ft模式确保虚机和业务的连续性。

1.2 存算一体和存算分离分别适合运用的应用场景有何不同?

存算一体和存算分离分别适合运用的应用场景有何不同?

嘉宾:李静 产品解决方案总监 , XSKY
银行业务场景区分包括性能、容量、扩展能力、可靠性等多维度:
1)针对银行的核心/关键应用,结合数据量和性能要求,更多偏向存算一体方案;
2)对于转向云的应用,小规模场景下资源充分利用,存算一体性价比高,对于未来有灵活扩展的需求,分离的架构更加适合;
3)对于非结构化数据/敏态应用,更多的是采用存算分离的架构;
4)对于大数据相关业务,存算分离是未来的趋势;
5)对于金融的安全性/容灾必要性要求,分离架构能够更好地隔离故障的影响;

嘉宾:light_hu86 系统工程师 , 某省金融
存算一体适合面向业务负载较低的场景,业务种类比较固定、系统规模较小的场景,而不适合业务负载较重,需要高计算性能的场景;存算一体也适合业务配比比较固定,而非业务种类差异比较大的场景。

而存算分离适合面向高弹性和高负载业务,可支撑多种类型差异较大的业务,系统规模较大的存储资源池,比较适合面向云化的场景。不适合较小规模场景下,因为存算分离成本比较高,计算与存储都需单独部署,因此并不适合简单场景。

1.3 银行业,交易类应用,分布式块存储选型最重要的指标和依据有哪些?

嘉宾:李静 产品解决方案总监 , XSKY
1) 性能:银行联机交易类业务,对实时响应要求极高,分布式存储相对传统集中式存储,存在多节点间的IO转发,IO路径更长,但随着新技术的快速演进,利用最新的英特尔®傲腾™固态盘(Intel®Optane™SSD)技术、英特尔® 以太网适配器RDMA网络技术等,结合分布式软件架构上的优化,可以实现更低的时延;
2) 稳定性、可靠性:联机交易系统,随着目前互联网金融的快速发展,对7*24的服务保障能力提出更高的要求,分布式存储随着近10年的发展,也具备了与传统集中式存储媲美的功能特性,包括快照、双活、复制等能力,可以提供基于盘、节点、机柜、跨机房的容灾保护能力,目前包括华为、XSKY均可以提供满足1~6容灾保护能力;
3)扩展能力:分布式存储具备SCale-out扩展特性,可满足业务系统扩展需求,同时分布式存储支持跨节点的数据流动,因此具备了数据免迁移的设备新旧替换能力,让运维人员摆脱了传统存储的数据迁移的工作烦恼,同时向XSKY等软件定义存储厂商提供软硬解耦方案,可以避免金融企业被某些存储厂商绑定的风险;
4)保护投资,满足公司IT持续演进的需求:不管是分布式存储还是传统集中式存储,都应具备开放的能力,与新的IT技术集成,确保金融企业的IT投资得到保护,如容器应用、国产化平台的演进等;分布式数据库、大数据平台、区块链等新的应用的整合。

嘉宾:light_hu86 系统工程师 , 某省金融
存储层面关注的指标有IOPS、带宽及延时等。
此外还需要关注存储的跨数据中心数据复制、灾备等能力。

1.4 银行交易类系统在分布式存储技术路线选择时,应用和数据库是否应该做不同的考量?

银行交易类系统在进行分布式存储技术路线选择时,考虑存算一体还是存算分离,是否应该按照系统模块类型不同做不同的技术选择,比如应用和数据库,毕竟对数据存储和处理的要求、特征都不同,应该从哪些角度去进行不同的考量?

嘉宾:李静 产品解决方案总监 , XSKY
主要从数据量、扩展性、性能、计算和存储的增长速度是否一致,性价比几个维度;
1) 数据库场景,数据量较少,基于当下的稳定性、性能考虑,通常采用全闪一体化架构为主,随着数据量的增长,未来可能会走向分离架构;
2) 对于转向云的应用,小规模场景下资源充分利用,存算一体性价比高,对于未来有灵活扩展的需求,分离的架构更加适合;
3)对于非结构化数据/敏态应用,更多的是采用存算分离的架构,数据增量很快,历史数据需要长期保存,分布式存储可以很好的做生命周期、数据流动的考虑;
4)对于大数据相关业务,存算分离是趋势;
5)对于金融的安全性/容灾必要性要求,分离架构能够更好隔离故障的影响;

嘉宾:light_hu86 系统工程师 , 某省金融
一般对于数据库和应用是有不同的考虑和选择的,对于银行来说,数据库考虑分布式数据库的相关选型,比如阿里OB、腾讯的TDSQL、华为的高斯、中兴的GoldenDB等,不同的数据库部署的方式不同,一般都是偏向于物理机整机部署,或物理机虚拟化分区部署。同应用是隔离开的。而应用的话基于部署的规模或是否云化等特点要求,可以采用存算分离或存算一体满足指标的要求即可。

嘉宾:tsrjzq 解决方案架构师 , 英特尔社区
一般来说,数据库对性能的要求是非常高的。所以数据库要优先选择高性能存储。而对应用来讲,主要看它是如何访问存储的,需要对象、文件还是块,对 I/O 的能力有什么要求,不能一概而论。当然存算一体和存算分离都有高性能的产品和解决方案,到底选择存算一体还是存算分离,主要取决于规模。规模大了的话一般还是存算分离的,如果是小规模的话可以考虑存算一体。

1.5 银行数据库和影像文件分别适合存算一体架构还是存算分离的架构?

银行数据库和影像文件分别适合存算一体架构还是存算分离的架构?如何考虑?

嘉宾:李静 产品解决方案总监 , XSKY
数据库属于稳态类业务,继续沿用原本的传统架构或者存算一体架构都适合,影像文件数据量大,历史数据需要长期保存,增量高,适合分离架构,可以在存储端进行数据分层流动等策略。

嘉宾:light_hu86 系统工程师 , 某省金融
银行数据库特别是重要系统,比如支付类的建议存算分离,有助于提升性能。
而影像文件,大多适合于对象场景的,根据规模的情况考虑是否需要存算分离。

嘉宾:匿名用户
建议选择存算分离,理由如下:
可靠性提升:外置共享存储可靠性结合云原生故障隔离和迁移能力,解决一体化方案可靠性短板,并为降低资源冗余提供基础;
资源优化:解决数据快速移动,实现计算、存储弹性扩展,按需分配,减少因可靠性、运维能力不足造成的硬件冗余;
能力复用:使用共享存储成熟的备份恢复、SSD介质延寿、亚健康等能力,快速提升数据库整体解决方案能力,节约开发成本;
架构先进:基于开放生态存储底座,可快速实现云原生数据库能力,不影响上层应用,实现平滑演进。

嘉宾:intgx 行业架构师 , 英特尔社区
影像数据一般属于冷数据或温数据,比较适合采用存算分离,交易类数据库都是热数据,要看分布式存储的 I/O 性能能否满足数据库的要求,一般来讲存算一体的架构更适合。

嘉宾:JAGXU 存储运维管理 , 中泰证券
数据库,非常核心的还是选择主流的存算分离。
影像文件,如果数据量大规模大且有符合潮汐场景,可以考虑存算分离,如果规模小数据量不大,可以一体。

1.6 存算一体和存算分离的分布式存储主流产品选型品牌,选型主要需要关注哪些参数?

存算一体和存算分离的分布式存储 主流产品选型品牌,选型主要需要关注哪些参数?实施部署使用的最佳实践是什么?

嘉宾:李静 产品解决方案总监 , XSKY
分布式存储的关注参数:
1) 首先是稳定性,各种故障情况下的业务安全性是否保障(硬盘,节点,机柜,数据中心RTO,RPO的考虑)
2) 然后就是性能要求,是否满足业务需求以及未来增量;
3) 除此之外还有很多功能可以关注,例如全协议支持、应用的适配、横向扩展能力、数据流动、生命周期、硬件迭代、协议转换、运维便捷性等等。

嘉宾:light_hu86 系统工程师 , 某省金融
目前主流的几款服务器厂家,如浪潮、新华三(有红牌新华三自己服务器、绿牌HP服务器)、联想、华为(X86服务器已改为超聚变)、戴尔等服务器厂家。
就存储而言,选型需关注磁盘配置情况,如大盘SATA、加速盘NVME配置多少容量、多少数量、多少转速,整体的性能表现和设备稳定程度情况。
最佳实践还是要看行内采购服务器的具体情况和具体配置来定。

嘉宾:JAGXU 存储运维管理 , 中泰证券
可靠性、性能、时延、故障接口或者节点切换时间,最后成本,考虑下场景。

1.7 银行交易类业务系统分布式块存储技术路线选型的难点和注意事项有哪些?

嘉宾:李静 产品解决方案总监 , XSKY
1) 各种故障情况下的业务安全性是否保障(硬盘,节点,机柜,数据中心RTO,RPO的考虑);
2) 性能是否满足业务需求以及未来增量;接入业务测试或者模拟业务的压力机长时间的测试,模拟cache被打爆的情况,短时间的性能测试都在缓存中,无法评估正式性能;
3) 全协议支持,考虑新业务的迭代增长,产品的开发周期
4) 横向扩展能力,业务无感知的情况下增加节点
5) 数据流动:跨数据中心,跨平台的数据流动
6) 数据生命周期
7) 硬件迭代对业务的影像,是否涉及迁移数据
8) API完善透明开放
9) 运维便捷性:自动化运维等等

嘉宾:radiumguo ITS , 英特尔社区
选型过程中,我认为难点在于如何通过PoC去模拟和验证实际使用的效果。
一个是测试的规模和配置会对结果产生比较大的影响,但很多案例中往往不具备充分的测试条件,有的时候体现不出被测产品的差异 。
二是分布式系统架构相对复杂,需要测试的点更多,需要调优的点也更多,周期也更长,时间成本较高。
三是行业属于快速发展阶段,厂商和产品很多,但良莠不齐,用户选型时有更多的风险和试错成本。
在考察一个产品和技术的时候,口碑是非常重要的,我认为一个产品的复购率越高,或者有很多客户在反复购买某一个产品,才能说明产品本身足够优秀。

另外对于分布式块存储这个产品类别,软件架构和对硬件技术的优化利用是很重要的,这个领域没有所谓的特殊技术,产品逐步推进,迭代和优化被证明是更可靠的路径。

嘉宾:tsrjzq 解决方案架构师 , 英特尔社区
交易类业务系统一般对性能要求高,因此在进行选型时,除了可靠性冗余性管理性等一般特性外,要重点关注性能。最好和数据库应用进行联合测试。

嘉宾:匿名用户
对于中小银行的传统架构转型,有以下几点思路,希望对你有所帮助
1) 计算虚拟化,解耦传统烟囱式的系统架构,充分利用x86平台,提高资源使用率,降低运维复杂度;
2) 集中式存储向分布式存储转型,利用分布式架构的弹性伸缩、按需扩展、高性能、高可靠等特点,为上层虚拟化提供数据持久化的能力,摆脱对集中存储的过度依赖,降低架构复杂度,结合第1步就组成了超融合架构;
3) 数据中心基础架构云化,通过前2步的准备,数据中心己具备云化的基础条件,首先可以实现IaaS的云化升级改造,实现基础架构的自动化、智能化以及自助化,提供效率;
关于步骤和方法,因为不同的基础架构环境需要区别对待,总体上分为架构层、系统层和应用层,架构层前面己经介绍了,关于系统层,目前行业常用的方法主要还是系统在线迁移实现过度,但也不排队容器化的改造,对于一些系统,容器可能更加合适,关于应用层,与基础架构相对最远,但其实和基础架构又有一定的关系,例如服务器虚拟化、VDI就非常适合超融合架构,容器化应用就比较适合物理机+分布式存储的解决方案。

1.8 存算分离是趋势吗?

嘉宾:李静 产品解决方案总监 , XSKY
目前看是一个趋势:
1) 从hadoop的架构体系演进也可以看到,hadoop1.0-hadoop2.0-hadoop3.0,在hadoop2.0里面已经可以看到存算分离的影子,hadoop3.0更加明确方向;
2) 随着云/分布式的发展,敏态场景数据量快速增长,原有的融合模式资源使用率低下,推动部分企业开始存算分离的试点;
3) 技术的成熟度,对性能的改善等也促进了存算分离方案的可落地;
4) 对于分布式数据库,国家发布的《分布式数据库技术金融应用规范 技术架构》 (JR/T 0203-2020)要求:计算存储分离,存储分布式技术架构,目前很多金融客户由于数据量的规模,实际并没有做存算分离架构,而是采用本地盘方案,但未来随着数据量的增长,必然会走向分离架构。

嘉宾:light_hu86 系统工程师 , 某省金融
也不能一概而言,根据业务的规模,使用场景的不同,业务类型的不同进行综合考虑。

嘉宾:radiumguo ITS , 英特尔社区
1) 存算分离,分别进行开发和优化肯定是个趋势,因为分布式计算架构,云架构是个趋势。
2) 有些传统的系统和应用,原来使用OS级别的存储管理能力,扩展性的不够的,无法匹配集群化分布式计算架构发展,所以需要独立的分布式的软件定义存储管理系统。
3) 有些厂商能力较强,分布式计算和存储都可以做的很好,又有很好的 整合能力,提供存算一体的方案也不是落后的表现。

嘉宾:tsrjzq 解决方案架构师 , 英特尔社区
一般来说,存算一体的计算和存储是强耦合的,不能分别扩展。在小规模的系统下,存算一体占主流。但是当用户需要的计算资源比较多,需要的存储资源也比较多了以后,需要计算和存储分别按需扩展、弹性计算,这样的话必定会演进到存算分离。因此可以认为存算分离是趋势。

嘉宾:匿名用户
只能说,存算分离是大数据架构演进的重要趋势。
下面采用一些官方的报告。
Hadoop1.0时代,计算和存储是高度融合,仅能处理单一的MapReduce分析业务;
Hadoop2.0时代,计算层与数据开始解耦,通过Yarn实现了独立的资源管理,并开始支持Spark等更多的计算引擎;而如今来到Hadoop3.0时代,计算存储已分开演进,通过Hadoop EC来支持冷数据的存储,同时引入外置存储,如S3,增强其存储底座能力,逐步向数据湖架构演进。
Hadoop3.0时代,计算正向轻量化和容器化方向发展,计算存储分离演进已成为事实。计算存储分离后,我们用企业级的存储基座替代原来的原生大数据存储基座,好处是可以把当前企业级存储的先进技术带入到大数据里面来,如高可靠、高利用率、多协议融合等,更好地释放数据的价值。

二、分布式块存储如何设计存储架构,确保性能能够满足银行业务的需要和发展?

2.1 存算一体和存算分离的分布式存储架构在银行应用情况及趋势分析,带来了那些优势和收益?

嘉宾:intgx 行业架构师 , 英特尔社区
存算分离和存算一体各有优缺点,
存算分离的优势在于资源相互隔离可以避免计算和存储负载间的干扰,维护的复杂度低,缺点在于资源利用率的优化;
存算一体的优势在于部署容易资源利用率高,但是计算和存储服务有相互干扰而且维护复杂较高,而且扩展性不好。
趋势上对于大规模的云平台部署存算分离更适合;存算一体更适合中小规模的云平台部署,尤其是现在对于一些分行 / 网点的边缘云部署。

嘉宾:李静 产品解决方案总监 , XSKY
银行业务场景区分包括包括性能、容量、扩展能力、可靠性等多维度;
1) 针对银行的核心/关键应用,结合数据量和性能要求,更多偏向存算一体方案;
2) 对于转向云的应用,小规模场景下资源充分利用,存算一体性价比高,对于未来有灵活扩展的需求,分离的架构更加适合;
3) 对于非结构化数据/敏态应用,更多的是采用存算分离的架构;
4) 对于大数据相关业务,存算分离是未来的趋势;
5) 对于金融的安全性/容灾必要性要求,分离架构更好的隔离故障的影响;
分离给客户带来的最大好处就是计算资源和存储资源可以独立灵活扩展,提高计算和存储资源利用效率,计算和存储之间相互故障隔离,同时底层数据可以基于数据湖的理念,构建一个可以承载多样化数据、数据自由流动的数据底座,为业务层提供多样化的服务,基于存储层的灾备能力,也可以重新构建大数据低成本保护体系建设;
同时,存算分离的使用也有一些弊端,包括分离后组网更复杂,IO路径更长,交互更复杂以及带来的性能下降等,因此需要结合不断发展的新技术如RDMA来降低新架构下的性能损耗,存算分离需要达到一定的数据量才会体现出投资成本优于存算一体化方案。

嘉宾:light_hu86 系统工程师 , 某省金融
就分布式,特别是面向互联网场景,以及云化的场景的存算分离是大致趋势。

2.2 中小银行基础架构改造实施路径?

中小银行在现有架构满足实际业务运行前提下,是否有必要进行存算分离方向的迭代改造;如何进行相关投入产出分析测算、实施过程中应采取何种保障业务高度稳定要求的落地方案。

嘉宾:李静 产品解决方案总监 , XSKY
银行的业务系统是否需要做存算分离改造,还是要结合现网实际的情况,包括应用的性能需求、数据量及增长趋势、成本、网络条件等综合因素考虑,传统的核心业务以稳定性为主,通常不会直接做改造,需要针对敏态场景,结合业务扩展速度、数据量增长趋势来确认是否需要做存算分离。

存算分离会带来计算、存储资源利用率的提升,数据存储会从三副本转向EC方式做数据冗余,存储得盘率的大幅度提升,存算分离会带来更多硬件资源消耗,在规模大的场景下更具有性价比的优势。

嘉宾:intgx 行业架构师 , 英特尔社区
从业务创新的角度看,敏态业务、数据分析和 AI 应用增长很快,也适用于存算分离的架构,总体来看向存算分离的方向发展是有必要的。

嘉宾:light_hu86 系统工程师 , 某省金融
现有的架构,如果面对云化的推进,或者新数据中心的建设等推进下可以按存算分离方向进行改造,以满足业务在未来的发展。

嘉宾:匿名用户
1) 银行业务系统后台为业务和数据的集中处理,对于这类业务,建议采用传统架构。由于分布式/云化架构注重灵活和敏捷性,容错性和性能,对与实务一致性处理能力不强。而银行后台系统对灵活性要求不高、业务和数据实时一致性和可靠性要求比较高,使用传统集中式架构比较合适。
2) 银行业务中台现在流行的做法是采用微服务的架构,底层使用基于云原生的容器架构,对于这类应用最适合采用超融合架构。因为超融合架构具有敏捷和按需扩容的特性,可以满足微服务快速部署和灵活响应的要求。而且超融合系统使用分布式架构,可以提升横向扩展,资源利用率高,存储性能可以做到近线性提升,在整体资源利用率上也比传统集中式架构优势明显。所以银行中台业务最适合分布式架构。
3) 银行业务前台多为业务应用系统,通常使用虚拟机的方式进行部署,采用基于虚拟化软件的云化架构最为合适。而且云化架构也可以采用分布式超融合系统进行部署,提升云环境性能、灵活、按需扩展等特性。可以实现业务系统的无缝、平衡上云。

2.3 中小农商银行如何选择分布式存储?选型分布式存储应该需要关注哪些方面?

嘉宾:李静 产品解决方案总监 , XSKY
存储产品选型还是需要结合应用需求来看,包括容量、性能、稳定性、成本等维度。目前看基于银行业务数据服务需求,包括数据量,从GB到PB;对应的数据服务协议,包括SCSI/ iSCSI/NVMe、块/文件/对象、结构化数据/半结构化数据/非结构化数据;对性能的要求,从实时性要求高的时延微秒级到非实时性业务秒级时延;应用场景从核心交易数据库、云/虚拟化/容器、电子影像平台、大数据平台等多种场景,目前分布式软件定义存储可以覆盖承载90%以上的业务场景。
分布式存储应用的关注点,和各类业务也是关联的,如核心系统考虑稳定性要求,还是采用传统IOE架构;电子影像等以前NAS应用,转向对象存储应用,会涉及上层应用的改造等;大数据平台的存算分离,需要考虑分离后的性能是否满足要求,此外成本是否得到控制;在云/虚拟化场景,需要考虑多云/虚拟化平台的生态、海量虚拟机数据快速增长带来的高效运维管理等问题;
回到分布式存储的关注点:首先是稳定性,各种故障情况下的业务安全性是否保障,同时是性能要求,是否满足业务需求以及未来增量;横向扩展能力;数据流动、生命周期、硬件迭代、协议转换、在线升级、平滑扩容、运维便捷性等等

嘉宾:light_hu86 系统工程师 , 某省金融
基于自身业务的具体情况,具体场景,具体规模以及是否云化等方面进行综合考虑,
在选型时应关注分布式存储本身的可靠性、扩展性、性能表现、通用性、标准性、安全性及灾备能力等方面。

嘉宾:tsrjzq 解决方案架构师 , 英特尔社区
对中小农商银行来说,首先要考虑的是分布式存储的用途,也就是我们用来存什么。如果是大量的非结构化数据,如视频、图像等等,那么要考虑用对象存储。这时,扩展性和容量是最优先考虑的因素,其次是性能。如果是用来承载数据库这一类应用,那么要考虑块存储。这时,性能是最优先考虑的因素,其次是扩展性和容量。如果是共享文件存储,那么除了对象存储的扩展性和容量,性能也是非常关键的。最后,无论是哪种存储,稳定可靠都是最起码的要求。

2.4 银行重要交易类账务系统存储架构改造的可行性?

中小银行重要交易类系统(如核心系统等)是否有必要大刀阔斧进行存储架构迭代改造,如现在存储为底层共用方式,在部分场景可能存在高并发、IO占用率过高现象,针对诸如此类情况,是否有必要朝存算分离方向改造?

嘉宾:李静 产品解决方案总监 , XSKY
银行的重要交易类账务系统目前还是以传统架构为主,外围系统采用的分布式/云架构,即业界俗称的稳态+敏态双模架构;核心下移需要一个长期的过程,需要经过开发测试环境严格测评,目前很多银行客户会结合应用层的改造,通过读写分析等手段,把读业务做下移,数据库也从传统的集中式转向MySQL等分布式数据库,应对海量的业务访问量,是否会做存算分离,更多需要依赖性能、数据量、成本、网络条件等综合因素考虑;针对存储底层共用的方式担心过高的并发会出现IO占用率高,分布式存储可以做到资源和性能占用隔离,确保重要业务的优先性。

嘉宾:light_hu86 系统工程师 , 某省金融
对于银行来说,没有必要进行大刀阔斧改造,如新机房部署,结合云化推进契机在确保稳定的情况下进行有条件尝试改造即可,银行还是对稳定要求比较高,特别是人行和银监监管力度越来越大,一旦发生业务问题,引起的后果是比较严重的。

如现在存储为集中式存储,对于互联网类业务,数据量大的业务,特别是云化类可以往存算分离方向改造。

嘉宾:匿名用户
这是一个大的命题,是需要业务场景或技术瓶颈驱动,如果命中以下几项,需要进行存储架构的迭代优化。
1、可靠性低:“服务器可靠性低,出问题数据无法访问甚至就都丢了,必须用多从同步来补可靠性的缺口”,“服务器网络抖动或磁盘亚健康问题很难监控处理,影响系统稳定性”,“服务器故障修复需要比较长时间,不能放太多实例”。
2、运维困难:“更换设备或扩容需要搬迁数据库,全量同步数据很慢”,“以前数据库数量小,现单库拆分成数10个实例,未来全网整改后,预计上千个实例,运维太复杂”,“原来只有两台小型机,现在需要20多台机器,4、5个机柜,机房和电都不够了”。
3、成本高:“存算绑定,无法弹性扩容”,“资源闲置,CPU利用率低”,“为保证可靠性增加副本数,现有架构成本是原来的1.5倍”。

嘉宾:intgx 行业架构师 , 英特尔社区
对于核心系统来说,目前的分布式存储主要在时延上还不能满足要求,有的行虽然把核心的数据库改造成分布式,但是存储还是使用的本地存储。

2.5 分布式存储存算一体架构?

存算一体的一般部署什么业务?我理解比如部署了数据库,存储有集群机制保障高可用性,那么怎么保障数据库的高可用?

嘉宾:李静 产品解决方案总监 , XSKY
存算一体是指计算和存储融合部署,由于IO路径断,本身性能好,同时借助于英特尔®傲腾™固态盘(英特尔®傲腾™SSD)+TLC/QLC大容量固态盘SSD,实现新一代分布式全闪,可以很好的承载数据库的业务。
分布式存储可以通过跨节点的EC、多副本,以及双活、远程复制等特性实现部件、节点、跨机柜、跨数据中心的可靠性保障,通过双活可以提供RPO=0,RTO秒级的业务连续性保障。
数据库的高可用属于单独模块考虑,不在存储层,可采用rac等方案,结合分布式存储的双活实现自上而下的整体保护。

嘉宾:light_hu86 系统工程师 , 某省金融
存算一体主要部署面向业务负载较低的场景,且业务种类和配比比较固定,系统规模较小的业务场景。对于数据库而言,如mysql,一般基于物理机形式以一主一备2从的形式确保高可用。

嘉宾:匿名用户
存算一体一般适用 访存密集(大数据需求)和计算密集(低精度规整运算)的特征业务,比如银行的批扣业务和数据处理业务。如果是云数据库,建议使用存算分离。

2.6 分布式存储软硬分离?

如果选择了分布式存储软硬分离,硬件的监控怎么做,分布式存储软件能监控到电源、风扇、内存、硬盘等硬件吗?

嘉宾:李静 产品解决方案总监 , XSKY
支持分布式存储软硬件分离都是由分布式软件提供商和服务器厂商合作实现的,所有部件会在实验室进行适配测试,提供详细的兼容性列表,基于稳定性考虑会对部件型号会有一定的要求;
存储集群提供统一的监控管理平台,包括硬件的CPU、内存、网络的使用率,SSD的型号、擦写次数寿命等等,粒度非常的细,支持硬盘点灯功能,支持网络可视化功能,做到监控界面和实际物理机房一致。

嘉宾:light_hu86 系统工程师 , 某省金融
一般对于分布式存储部署要求解耦,即软硬件分离。而对于底层硬件指标的监控,可以接入行内的监控系统,如zabbix等进行相应指标的抽取,并进行相应的告警及后续的工单流程。

嘉宾:匿名用户
看商业软件是否具备对硬件的监控,如果没有,zabbix可以对分布式存储原生监控进行补充,具备对 电源、风扇、内存、硬盘等硬件的监控能力。

2.7 存算一体与存算分离最佳部署方案如何选择节点?

嘉宾:light_hu86 系统工程师 , 某省金融
1) 首先确定分布式存储软件及相应的规模,确定是否存算一体还是存算分离;
2) 就分布式存储而言,看软件的解耦性,以及相应的兼容性列表;
3) 根据兼容性列表里服务器的型号,分别根据存算一体和存算分离的不同情况配置不同的cpu、内存及磁盘的具体组成情况。

嘉宾:李静 产品解决方案总监 , XSKY
存算一体和分离都是3节点起配;
10节点以内可以考虑存算一体,这个体量可以很好的评估计算和存储的比率,保持增量一致的扩展;
未来规模较大/敏态业务推荐分离架构,需要灵活扩展计算或者存储,规模大的情况下运维要求也会提升,分离部署可以很好的隔离相互之间的影响。

2.8 存算一体现在主流的技术架构有哪些?采用了哪些技术栈?各自有哪些产品型号?

嘉宾:李静 产品解决方案总监 , XSKY
HCI 各个厂商都有自己技术实现的特点,如果要剖析技术栈的区别,可以从对虚拟化的支持、存储的实现、管理实现三个角度上看:
对虚拟化的支持方面:大部分的HCI 厂商都支持KVM、VMware等主流虚拟化技术,技术架构层面,除了VMware的vSAN是在hypervisor 内做支持,其他厂商的架构基本上都是通过CVM的模式;对于KVM,各个厂商基本上都是通过存储直接安装在hypervisor 主机来支持的
对于存储实现:在超融合架构中,虚拟化是基础,核心则是分布式存储,部分厂商是开源演化的,部分厂商则是完全自主开发的,各有优势,技术上看都能支持计算的需求
管理实现上:大部分厂商都实现了统一管理
超融合的厂商较多,国外有Nutanix,Dell EMC等,国内有华为,H3C,深信服,SmartX,Zstack等,都有各自的主力产品。

嘉宾:light_hu86 系统工程师 , 某省金融
存算一体及超融合架构,目前用的比较的是vmware的vsan架构,采用vmware的分布式存储方案,基于vmware的vsphere路线。

还有比较主流的开源的kvm计算+ceph存储的存算一体化技术架构,如新华三的超融合等。

嘉宾:radiumguo ITS , 英特尔社区
存算一体大概有3类。
1) HCI超融合,计算、存储、网络之间有配合,虽然有一定的限制,但可以得到比较好的优化。
2) 数据库一体机。也可以算是存算一体,计算部分使用裸金属比较多,存储部分开始大量采用SDS分布式架构,主要解决数据库下面的存储管理问题。通常做有针对性的优化。
3) 分布式数据库,有些会设计好存储层的管理框架,然后与第三方SDS分布式存储对接。这种可以说是存算一体,也可以说是存算分离。

嘉宾:tsrjzq 解决方案架构师 , 英特尔社区
存算一体目前最主要的是构建超融合一体机( HCI )方案。国内有不少厂商都有超融合一体机。国外的话最主流的就是 vSAN 。

2.9 如何结合银行业务特点制定分布式存储的策略和方案,其中的难点是什么?

嘉宾:李静 产品解决方案总监 , XSKY
1) 性能:银行联机交易类业务,对实时响应要求极高,分布式存储相对传统集中式存储,存在多节点间的IO转发,IO路径更长,但随着新技术的快速演进,利用最新的optane、SSD技术、RDMA网络技术等,结合分布式软件架构上的优化,可以实现更低的时延;
2) 稳定性、可靠性:联机交易系统,随着目前互联网金融的快速发展,对7*24的服务保障能力提出更高的要求,分布式存储随着近10年的发展,也具备了与传统集中式存储媲美的功能特性,包括快照、双活、复制等能力,可以提供基于盘、节点、机柜、跨机房的容灾保护能力,目前包括华为、XSKY均可以提供满足1~6容灾保护能力;
3)扩展能力:分布式存储具备Scale-out扩展特性,可满足业务系统扩展需求,同时分布式存储支持跨节点的数据流动,因此具备了数据免迁移的设备新旧替换能力,让运维人员摆脱了传统存储的数据迁移的工作烦恼,同时向XSKY等软件定义存储厂商提供软硬解耦方案,可以避免金融企业被某些存储厂商绑定的风险;
4) 保护投资,满足公司IT持续演进的需求:不管是分布式存储还是传统集中式存储,都应具备开放的能力,与新的IT技术集成,确保金融企业的IT投资得到保护,如容器应用、国产化平台的演进等;分布式数据库、大数据平台、区块链等新的应用的整合。
核心关注点:各种故障情况下的业务安全性是否保障(硬盘,节点,机柜,数据中心RTO,RPO的考虑);
性能是否满足业务需求以及未来增量;
很多功能功能,全协议支持、应用的适配、横向扩展能力、数据流动、生命周期、硬件迭代、协议转换、运维便捷性、API完善透明开放、在线升级等等。

嘉宾:radiumguo ITS , 英特尔社区
其实每一家银行的情况也都是不同的,有历史形成的系统架构问题,也有人员自身技术特长的差异。是否走分布式存储路线,还要兼顾考虑数据库的情况,云化/云原生的情况。
不过长期看,SDS分布式存储取代传统技术是一个趋势,这个领域技术迭代更快,架构更灵活,整个软硬件生态的发展也是这个方向。
具体的策略可以选择软硬分离,或者软硬一体(比如SDS一体机)。起步的话,软硬一体显然更加合适,试错成本最低。

嘉宾:intgx 行业架构师 , 英特尔社区
分布式存储的使用还是和分布式系统改造以及系统上云紧密结合的,首先还是要考虑未来云平台的整体规划,比如未来计划要把哪些应用或系统平台迁移到云上,这些系统 / 平台的负载特性对 I/O 的要求如何,都是决定分布式存储方案的要素。其中的难点之一是对现有业务系统 / 技术平台负载特性的定量和定性分析。

嘉宾:匿名用户
建议参考这篇文章---中小型银行分布式存储使用探析
本文简要介绍了分布式存储的定义和分类,以及在中小型银行IT系统中设计规划,落地实施中可能存在读写延时,数据重构等问题,并提出了相应解决的思路——制定合理全面的规划方案,进行严密充分的选型测试,以及做好风险可控的备份手段.

三、分布式块存储在架构和技术层面如何提升存储性能和保障产品稳定性?

3.1 支撑交易类的业务系统,分布式块存储的性能如何提升?

嘉宾:tsrjzq 解决方案架构师 , 英特尔社区
分布式块存储的性能要从几个方面来提升。
1) 首先,存储性能的提升依赖于存储介质的提升。这是最根本的。比如从传统的以机械硬盘为主的方案变成以闪存盘为主的方案,甚至是 NVMe 盘为主的方案。
2) 其次,为了进一步提升性能,一般需要一个更高性能的介质作为缓存层,用来承载元数据、热数据、写缓存等等,这样就需要像英特尔®傲腾™固态盘(英特尔®傲腾™SSD)或者英特尔®傲腾™持久内存(英特尔®傲腾™ Pmem)了。
3) 除了硬件介质以外,在软件层也需要做相应的适配,以便能把硬件的性能发挥出来,这样的话,使用 SPDK 或者 IOU-ring 这样的用户态驱动以替代传统的内核驱动,就非常有必要了。另外整体软件架构也需要做适配和精简,以避免不必要的浪费。
4)网络侧也需要有高带宽、低延时、有先进特性的网络以进行适配,如 英特尔® 以太网配置远程直接内存访问 (RDMA) 、 英特尔®应用程序队列(ADQ)等技术。

嘉宾:李静 产品解决方案总监 , XSKY
主要从如下几个方面提升性能:
适配高性能的硬件,例如,英特尔®傲腾™SSD ,高速网卡(支持RoCE),在传输介质和存储介质上发掘性能。
缓存加速能力,XSKY 提供分布式多级缓存技术,采用空间换时间的方式,让不同类型的IO按策略访问最合适的硬件介质,获取最高的性能。
软件处理能力提升,XSKY 提供端到端自研的软件技术栈,优化软件处理时延,从根本上提升整体性能。
提升并发能力,这点是分布式存储的优势,通过多个节点的并发,可以大幅度的提升整体性能。

嘉宾:light_hu86 系统工程师 , 某省金融
1) 设备配置优化,如cpu、内存、磁盘的性能(更换为配置更高的闪存ssd);
2) 网络线路优化,更换目前10gb为25gb,提升网络处理能力。

嘉宾:匿名用户
作为金融机构,其实不仅仅是联机交易,批扣业务对分布式存储的性能要求更加苛刻,抛砖引玉,对于性能优化不能仅仅依靠存储介质,更多的需要从架构和应用着手。
1) 硬件升级,采取全闪存的方式,提高IO读写能力。
2) 优化IO路径和通信框架,IO路径方面,可以通过中间层cache的方式,通信框架完全是架构升级。
3) 优化每个业务模块的处理时间。
4) 优化磁盘布局, 利用增加数据缓存层来降低延迟,即利用在存储节点给多块HDD配置一块SSD。
5) 增加数据缓存层,通过前后两端的缓存引擎来降低途中的IO性能损耗,比如在后端缓存的基础上增加客户端缓存层,在海量sql的基础上增加KV的内部计算。

3.2 分布式块存储如何尽量避免增减节点带来的性能影响?

嘉宾:李静 产品解决方案总监 , XSKY
XSKY通过三个功能应对该场景:(1)闲时自动重平衡:可以人为设置业务压力小的时候进行数据的恢复,其余时间默认是禁止恢复;(2)恢复QOS策略确保业务系统资源优先保障,避免扩缩容带来的数据均衡对性能的影响;(3)整池扩容,文件系统和对象桶可以跨池,扩容不用在原池扩容,直接创建新池,文件系统和桶归属多个池,业务默认会在数据量小的池写入,两个池都可以读出。

嘉宾:light_hu86 系统工程师 , 某省金融
对于分布式存储来说,设备扩容及设备故障场景是一直存在着的,面对设备节点的增减对于底层存储侧数据的重构与重建来说,也是不可避免的。因此避开数据业务高峰期,再进行相应的操作处理。

嘉宾:匿名用户
这是分布式存储的老问题,尽管每一家分布式存储厂商都有比较好的解决的方式,依然在增减节点的时候,对性能带来影响,这是数据平衡所导致的。

对于分布式存储而言,扩容和缩容不可避免会带来数据重平衡的问题,目前来说,并没有特别好的处理机制,数据的重构确实会对存储系统的IO带来很大影响。我所知道的,IO对于性能的影响有两个可能性,一种是数据平衡过程中的网络传输,另一种是读写IO,一般情况下,可以通过整池扩容或降低速率可以避免性能损耗过大。

3.3 银行采用分布式存储技术时采用存算分离的可靠性怎么样?

银行采用分布式存储技术时采用存算分离的可靠性怎么样?

嘉宾:李静 产品解决方案总监 , XSKY
分布式存储:(1)首先实现硬盘级别的保障,采用副本或者ec,相比于传统存储的raid;分布式存储可以忍受的故障磁盘数量更多;(2)分布式架构是多台服务器组成,可以实现服务器级别故障集群内部保障,传统存储单台硬件,可以实现单个控制器级别的故障内部切换保障,分布式架构容忍范围更广;(3)另外整体数据中心的容灾就各家实现不一样了,XSKY可以做到两地三中心的保护,支持存储双活、同步/异步复制,存储备份,对象多站点,数据分层,纳管等多种保护机制;
分离架构可以很好的做计算和存储的隔离,存储端的保护机制还是非常完善的

嘉宾:light_hu86 系统工程师 , 某省金融
目前分布式存储技术已经比较成熟,基于多副本或纠删码技术可以确保数据的完整性和可靠性。

3.4 存算一体化与存算分离的稳定性比较?

存算一体化集成性更高,存储同时提供计算,相比存算分离,如果出现故障是否对上层业务的影响面会更大?该如何来在性能与稳定性间实现平衡。

嘉宾:李静 产品解决方案总监 , XSKY
存算一体化是将计算存储融合部署,相比于存算分离,出现故障同时会影响计算和存储,对业务的影响面更广,同时他的好处IO路径更短性能更好。
银行业务的稳定性要求非常高,优先从这个角度考虑肯定分离部署更加适合,在这个基础上进一步的优化性能,首先是硬件层:采用提升性能的硬件新技术,包括英特尔®傲腾™固态盘 (Intel® Optane™ SSD )、NMVe SSD、网络协议转向RDMA,通过新技术获得高性能的收益;同时更重要的是产品架构和软件优化上,通过SSD缓存设计优化,提升读写命中,加速IO合并下刷实现打不爆的cache;通过存储系统的私有客户端实现IO路径的优化;就近读写等设计实现性能优化。

嘉宾:light_hu86 系统工程师 , 某省金融
就这二者区别,在故障层面,对于存算一体来说,其中一台发生故障,上面应用基于ha机制会发生虚机重启,应用启停。而对于存算分离而言,计算节点故障和存算一体一样,应用基于ha机制发生虚机重启,应用启停;而存储节点故障,基于存储节点三副本或纠删码技术,对前端的应用没有影响。存储层会自动剔除并重建副本。

3.5 存算一体在数据的稳定性和性能上和传统的存储有优缺点?

分布式存储在软硬件上是不是分离的,后期扩容对于不同厂家的兼容性如何。

嘉宾:李静 产品解决方案总监 , XSKY
稳定性:分布式架构相比于传统存储,(1)都可以实现硬盘级别的保障,前者是副本或者ec,后者是raid;分布式存储可以忍受的故障磁盘数量更多;(2)分布式架构是多台服务器组成,可以实现服务器级别故障集群内部保障,传统存储单台硬件,可以实现单个控制器级别的故障内部切换保障,分布式架构容忍范围更广(3)两者都可以实现双活(分布式存储采用延展集群跨数据中心的方式)保障数据中心级别的故障保护;
性能:分布式架构性能随着节点数的增长线性增长,传统存储双控架构,性能取决于控制器的能力,所以规模小的时候两者性能相当,传统的表现更优,随着规模的增长,分布式的性能优势能得以充分的发挥。
目前有两个流派,第一种是原本就是硬件生厂商,主推或者只推分布式一体机,以华为、华三、浪潮等为代表,另一种是独立的分布式软件提供商,以纯软或者OEM硬件一体机的方式提供,硬件品牌可以多种,以XSKY、VSAN等为主;
前者在扩容环节也必须是同一品牌的一体机,后者选择会更加广泛,和服务器厂商有很好的合作,新的部件会在实验室进行适配测试,提供详细的兼容性列表,基于稳定性考虑会对部件型号会有一定的要求。

嘉宾:light_hu86 系统工程师 , 某省金融
存算一体即超融合架构与传统的集中式存储在性能表现和稳定性上还是略有差距。
分布式存储在部署上是可以实现软硬件解耦,如vmware的vsan产品,但硬件需在软件的兼容性列表中,后期的扩容也需要考虑兼容性的要求。

3.6 交易类业务系统对性能要求比较高,如果采用分布式块存储,如何进行性能持续优化?

嘉宾:李静 产品解决方案总监 , XSKY
主要从如下几个方面提升性能:
适配高性能的硬件,例如,包括英特尔®傲腾™持久内存(Intel® Optane™ Pmem)、英特尔®傲腾™固态盘 (Intel® Optane™ SSD ),高速网卡(支持RoCE),在传输介质和存储介质上发掘性能。
缓存加速能力,XSKY 提供分布式多级缓存技术,采用空间换时间的方式,让不同类型的IO按策略访问最合适的硬件介质,获取最高的性能。
软件处理能力提升,XSKY 提供端到端自研的软件技术栈,优化软件处理时延,从根本上提升整体性能。
提升并发能力,这点是分布式存储的优势,通过多个节点的并发,可以大幅度的提升整体性能。
补充性能优化是如何持续发展的:
借助硬件红利:软件定义存储的优势是可以持续的享受硬件发展的红利,通过硬件性能提升,软件加强对硬件的适配,从而提升整体性能
软件架构的迭代:XSKY 针对高性能存储有非常明确的Roadmap,在设备接入层,南北向传输层,缓存层,持久化层,均投入了研发资源进行持续的改进,在保证稳定性的前提下持续的优化性能。

嘉宾:l tsrjzq 解决方案架构师 , 英特尔社区
分布式块存储的性能要从几个方面来提升。
1) 首先,存储性能的提升依赖于存储介质的提升。这是最根本的。比如从传统的以机械硬盘为主的方案变成以闪存盘位主的方案,甚至是 NVMe 盘为主的方案。
2) 其次,为了进一步提升性能,一般需要一个更高性能的介质作为缓存层,用来承载元数据、热数据、写缓存等等,这样就需要像 英特尔®傲腾™固态盘 (Intel® Optane™ SSD ) 或者包括英特尔®傲腾™持久内存(Intel® Optane™ Pmem) 了。
3) 除了硬件介质以外,在软件层也需要做相应的适配,以便能把硬件的性能发挥出来,这样的话,使用 英特尔®SPDK 或者 IOU-ring 这样的用户态驱动以替代传统的内核驱动,就非常有必要了。另外整体软件架构也需要做适配和精简,以避免不必要的浪费。
4) 网络侧也需要有高带宽、低延时、有先进特性的网络以进行适配,如 英特尔® 以太网配置远程直接内存访问 (RDMA) 、 英特尔®应用程序队列(ADQ) 等技术。

嘉宾:匿名用户
作为金融机构,其实不仅仅是联机交易,批扣业务对分布式存储的性能要求更加苛刻,抛砖引玉,对于性能优化不能仅仅依靠存储介质,更多的需要从架构和应用着手。
1) 硬件升级,采取全闪存的方式,提高IO读写能力。
2) 优化IO路径和通信框架,IO路径方面,可以通过中间层cache的方式,通信框架完全是架构升级。
3) 优化每个业务模块的处理时间。
4) 优化磁盘布局, 利用增加数据缓存层来降低延迟,即利用在存储节点给多块HDD配置一块SSD。
5) 增加数据缓存层,通过前后两端的缓存引擎来降低途中的IO性能损耗,比如在后端缓存的基础上增加客户端缓存层,在海量sql的基础上增加KV的内部计算。

3.7 基于IP的ISCSI访问分布式存储在稳定性,时延,网络抖动,链路冗余等方面怎么保证业务连续性?

银行交易系统特点是要求数据存储稳定可靠、不能有数据丢失或错误、io时延要求低等特点,脱离FC的三层架构,采用基于IP的ISCSI访问分布式存储在稳定性,时延,网络抖动,链路冗余等方面怎么保证业务连续性?

嘉宾:李静 产品解决方案总监 , XSKY
1) 网络延时方面:Intel的高速网卡在延时、传输稳定性有非常大的提升,经过测试可以满足核心业务的需求;
2) 数据可靠性方面:XSKY在数据传输过程中以及最终存储过程都采用了数据校验机制,可以防止传输数据错误,以及硬盘静态错误(实施修复),确保数据一致性;同时,底层数据采用强一致性复制协议的副本和EC技术,以及产品自带的双活、备份以及归档技术,可以极大程度保证数据可靠。
3) 链路可靠性方面:iSCSI 链路冗余方面,采用了4路MPIO技术,类似传统存储的四控架构,在损坏三个网关控制器的情况下仍然可以保证业务连续性;
4) 网络亚健康方面:对于网络抖动的异常,XSKY 亚健康机制可以快速识别并进行隔离,通过业务IO切换等操作保证业务性能的稳定
另外,XSKY 也提供4路MPIO 模式 的FC 接口功能,可以不改变用户业务网络拓扑的情况下通过FC 接入客户核心业务。

嘉宾:tsrjzq 解决方案架构师 , 英特尔社区
一般的 ISCSI协议走以太网,和其他流量混杂在一起,所以流量之间会相互影响,造成网络抖动。 Intel 在网卡端有一项新技术,叫 英特尔®应用程序队列(ADQ) ,能够在硬件上把不同的应用的流量区分开来,分别进入不同的队列,高优先级的流量在稳定性、时延和网络表现方面有非常大的提升,比如在内存数据库的长尾延时方面有十几倍的提升。如果在 ISCSI上应用了 英特尔®应用程序队列(ADQ) ,那么保证业务连续性、稳定性、低延时不成问题。如果没有利用到一些先进特性,单纯的ISCSI的话,可能不一定能满足要求。

嘉宾:匿名用户
准确说,ISCSI缺点挺多的,比如说协议耗时,依赖网卡。 时延,网络抖动,链路冗余,这几种情况,一般取决于网络架构和数据量的大小,以及数据复制和同步对于业务的容忍程度所决定的。

3.8 采用存算一体架构如何应对计算或存储的独立扩展?

嘉宾:李静 产品解决方案总监 , XSKY
存算一体就是将计算和存储融合部署,这种扩展会同时扩容存储和计算,如果计算和存储的使用增量差距大,这种架构就不具有优势,现在部分厂商支持独立扩展计算或者存储,架构就会逐步过渡到分离部署的方式。

嘉宾:light_hu86 系统工程师 , 某省金融
如采用存算一体的架构面对计算和存储的扩展需求,需统一一体化考虑,在扩容计算的同时,也会兼顾存储的,在扩容存储的同时也会兼顾计算能力,因此当存在计算或存储不足时,都会对计算和存储整体进行扩容。

3.9 英特尔对存算分离和存算一体的分布式块存储有哪些方面的技术支持?

嘉宾:李静 产品解决方案总监 , XSKY
XSKY选用Intel新一代数据中心网卡(RDMA)、傲腾™数据中心级SSD (Intel®Optane™SSD)、大容量的TLC/QLC的SSD组件新一代全闪分布式存储,基于这些硬件进一步优化协议栈和内部算法,以推进存算分离方案进入银行关键应用场景。

嘉宾:light_hu86 系统工程师 , 某省金融
对于分布式块存储,英特尔推出傲腾持久内存(Intel®Optane™ Pmem)提升分布式存储能力。

嘉宾:tsrjzq 解决方案架构师 , 英特尔社区
对于分布式块存储来讲,需要计算能力、存储能力、网络能力和软件能力,把这四方面整合起来,才能构建出一套高性能的存储系统。英特尔在这四方面都有强大的技术实力。
1) 首先,比如计算能力,英特尔有至强系列 CPU ,这一点估计大家都知道。
2) 其次,在存储能力方面,英特尔有业界性能领先的傲腾技术,生产的产品包括英特尔®傲腾™持久内存(Intel®Optane™ Pmem)或非易失性内存和英特尔®傲腾™固态盘(Intel®Optane™SSD),这是目前业界性能领先的产品。此外,英特尔的数据中心闪存盘,包括 NVMe SSD 和 SATA SSD ,其可靠性和性能也是有口皆碑的。
3) 第三,在网络能力方面,英特尔做网卡有几十年的历史,数据中心的网卡也是业界领先,拥有 英特尔® 以太网配置远程直接内存访问 (RDMA) 、 英特尔®应用程序队列(ADQ) 等先进特性。
4) 最后,在软件能力方面,英特尔长期致力于构建开源社区的生态,如 Ceph 社区,英特尔贡献了很多代码。除此之外,英特尔还有很多基础层的软件,如 DPDK 、 SPDK 、 ISA-L 等,用来和英特尔硬件配合,供我们的合作伙伴集成到他们的解决方案里以提升性能。

嘉宾:radiumguo ITS , 英特尔社区
目前国内和国际上,绝大大多数SDS厂商都和英特尔有生态合作,其中相当一部分重要的厂商和英特尔在研发阶段即展开深度配合,涉及软件栈的使用,性能优化,特定硬件及feature的使用等等。存算分离和存算一体两类都有。

另外英特尔还经常与SDS合作伙伴以及最终用户一起,做三方联合应用验证测试,英特尔会投入实验设备,专家团队一起帮助SDS技术在行业中实现快速落地。

嘉宾:匿名用户
笔者所知道的几种可行的技术解决方向,其中计算型存储、存内计算、3D堆叠和类脑计算是比较受关注的,具体的细节还需要英特尔的专家进行阐述。

3.10 存算分离后有必要用存储吗?使用内存库不好吗?

嘉宾:李静 产品解决方案总监 , XSKY
内存库的空间有限,同时掉电易失,不满足空间和安全性的要求,存储可以很好的响应银行业务的安全性、可靠性、扩展性、高性能等多个层面的要求

嘉宾:light_hu86 系统工程师 , 某省金融
适用的场景不一样,存算分离比较适合云化场景,而对于云化场景也不能全基于内存库。

嘉宾:radiumguo ITS , 英特尔社区
内存数据库未来有更广泛的场景,发展也非常快,出于数据安全保存的需求,数据持久化一直是该领域一个重要的话题。即使目前使用了非易失性内存技术,极大地提升了系统recovery的速度,但是仍然有一部分数据需要落盘。

但相对地,内存数据库对存储的性能要求会比较低,至少不依赖于存储的性能来满足日常计算的需求,或者说存储能力不会成为主要的瓶颈。

嘉宾:tsrjzq 解决方案架构师 , 英特尔社区
存储在什么时候都是不可或缺的。因为内存虽然速度快,但是最大的问题是其易失性,掉电以后数据就没了。因此想要永久保存数据,存储是非常必要的。当然,如果把内存作为缓存层,先存数据,然后通过异步的方式写回存储,这样也是可以的。但是缓存层的数据如何确保其安全,则是非常关键的,一般需要通过多副本,甚至是不同机柜或不同列的机柜之间存储多副本才能保证可靠性。

嘉宾:匿名用户
存算分离最佳场景是云数据库场景, 现在也成为云数据库的趋势,关于存算分离后是否有必要使用存储的问题,有点不清楚从何说起。
和传统分布式存储的使用场景不一样的是,存算分离的场景重点在于下移能力,固化存储层,弹性计算层,一般有以下特征(引用于行业知名厂商的指标):
1) 分布式高可用,引入Paxos协议来保障日志数据传输满足多数派要求,在一个可用区中一定有一份完整的日志。
2) 自动选主且具备自动探测切换的能力。
3) SQL引擎下压,向上返回的数据是经过过滤、投影处理的。
4) 支持跨可用区部署。
5) 数据文件IO不持久化,只有联机日志IO持久化,主节点写入,从节点从日志恢复出完整的数据文件。
6) 从数据库角度来看存储是Share Everything,Docker可以从任何一个AZ拉起数据库,支持读写分离。
7) 数据分片存储,自动重新分布存储数据。

四、分布式块存储在建设和运维过程应注意哪些要点?

4.1 存算分离或存算合一对存储数据网络的建设与规范有何区别?

存算分离或存算合一对存储数据网络的建设与规范有何区别,目前在做存储数据专用网络区域的规划,对于这2种不同架构,是否需要不同的规范?

嘉宾:李静 产品解决方案总监 , XSKY
一般来说,存算分离对网络的要求会更高一些。对于存算一体的系统而言,部分 I/O 可以在节点内实现,但存算分离的系统则所有的 I/O 都需要通过网络。因此首先网络带宽要求会更高。其次,要保证业务连续性、稳定性,需要一些先进特性的支持,如 RDMA 或 SPDK 能够使单线程 I/O 的性能最大化, 英特尔®应用程序队列(ADQ) 能够极大降低网络的长尾延时,等等。

嘉宾:light_hu86 系统工程师 , 某省金融
1、网络接口层面可采用10GB接口,或者25GB接口,这样性能更高;
2、业务、管理和存储网络实现冗余,确保当一条故障时对业务无影响;
3、按照分布式存储建设开局指导书里有具体的网络方面的要求和规范,按照标准化网络进行部署即可。

嘉宾:匿名用户
准确说,无论存算分离,还是存算一体,都没有什么网络规划的说法,只有面向大规模节点的集群规模下,才会考虑网络的建设和规范,比如说以下几个方面,抛砖引玉。
1) 尽量采用10G网络接口,并采用光口进行连接。上行链路采用40G接口。
2) 网络设备尽量做到冗余,至少配置2个万兆光口接入交换机。
3) 存储集群(一体或分离)除了需要交换大量的数据外,可能还会在网络上执行实例复制和同步活动,因此需要考虑数据重建和同步操作的损耗。
4) 将各种流量类型(分布式存储网络、管理网络 、虚拟机迁移网络、虚拟机生产网络、)分别放在不同的 VLAN中,并使用份额作为服务质量 (QoS) 机制,以便在可能出现的争用场景中保持期望的性能级别。
5) 划分不同的VLAN还可以保证分布式存储集群网络不受影响,因为分布式存储集群网络一旦发生IP地址冲突,将导致整个分布式存储集群不可用。
6) 为了实现最佳的安全性和性能,应将分布式存储集群网络流量隔离至其自己的第 2 层网段。
7) 对网卡进行绑定配置,作为可用性和冗余措施,做带宽聚合。

4.2 针对分布式对象存储的备份应该注意哪些要点?

如题,现在很多银行影像类文件开始使用对象存储进行保存,针对此类文件已经有三副本的情况下,是否还会做离线备份,针对分布式对象存储的备份应该注意哪些要点?

嘉宾:李静 产品解决方案总监 , XSKY
影像类的文件保存不管是三副本还是EC校验,实现的都是集群内部的节点级别的故障域,此类业务在金融行业内属于重要生产类数据,落地同步需要实现容灾,目前最为常见的采用对象多站点的方式实现异步双活,业务同时在两个数据中心写入,就近读出,元数据强一致性保障数据不会被写花。
单个数据中心宕机最多有分钟级别的数据丢失,备份在这个基础上解决的是逻辑错误的问题,也具有生产意义,但同步要考虑经济投入。
影像数据目前历史数据量大,早期数据量访问热度低,目前可以考虑分层的方式存储,很多金融客户针对这类数据是做冷、温、热分层,对1~3个月以内的数据放在性能最好的对象存储上,3~6个月(或者1年)数据放到温层,6个月(或者1年)以上的数据归档到对象存储或者物理带库等做长期的保存。

嘉宾:匿名用户
一般情况下,对于银行数据的重要性而言,是需要做额外的备份,尽管分布式存储对于数据的容错能力已经具备很高的水准。
如果采取分布式存储的原生备份能力,通过存储多个副本来实现。当某个存储节点出故障时,系统能够自动将服务切换到其他的副本,从而实现自动容错。有两种协议方式, 强同步复制及异步复制,两者区别如字面意思,即用户的写请求是否需要同步到备份副本才算成功。假如备份副本不止一个,复制协议还会要求写请求至少需要同步到几个备份副本。
额外的备份,其实很简单,通过物理大盘存储的方式进行,通过时间窗口的方式进行备份,比如按年月日,或者按照系统切分的方式进行。

需要注意几点,1、备份的监控要覆盖。2、数据的一致性要满足。3、要定期进行恢复性测试。

嘉宾:light_hu86 系统工程师 , 某省金融
一般分布式对象存储通过多副本或纠删码等存储策略确保数据的高可用性,如对于重要系统的数据而言,可通过多数据中心多DC的方式以多中心数据同步的形式进行数据同步,实现数据的灾备能力。

4.3 分布式存储节点级别的故障?

分布式存储要做到节点级别的故障域,需要最低配置几个节点?是不是和存储池配置3副本或者纠删也有关。

嘉宾:李静 产品解决方案总监 , XSKY
目前分布式存储数据冗余采用的技术包括多副本、EC等,其对最低的节点数有要求,如采用3副本,则最少配置3节点,推荐5节点(可以随机2个节点故障继续提供服务);

采用EC,如N+M(N:数据片,M:校验片),则需要的最少节点数为N+M个,推荐N+M+1,如果是N+M:1,则需要的最小节点数是(N+M)/2(往上取整),推荐(N+M)/2(往上取整)+1。

嘉宾:light_hu86 系统工程师 , 某省金融
分布式存储节点同底层的副本数量以及纠删码的格式存在一定的关系,如3副本,理想状态下3台节点即可满足,但一般都是3台以上,确保数据的冗余性。

嘉宾:匿名用户
理论上说,最低配置是奇数个,也就是3个。
如果是3副本,且发生节点故障时候,需要考虑以下几个方面。
1) 多副本:同一份数据会保存多份(通常设置为 2 副本或 3 副本),即使副本所在的节点宕机也不会造成数据丢失;
2) HA(高可用):节点宕机时,该节点上的虚拟机自动迁移至集群内其它节点,降低业务中断时间;
3) 机架感知:根据机房物理拓扑结构,将副本分配在不同的机架、机箱、主机上,有效减少甚至避免物理硬件(电源、交换机等)故障导致的数据丢失。理论上,3 副本结合机架感知配置,系统可最多容忍 2 个机架上的主机全部失效。

4.4 分布式存储对运维管理的挑战?

分布式存储具有可扩展能力强,价格优惠等特性,但在稳定性、高可用性、运维管理等方面与传统集中式存储差异较大,分布式存储软件版本迭代更新及与底层通用x86服务器硬件兼容性等是较大运维难点,对于长期使用集中式存储的用户来说,应该从哪些方面进行准备,以便于将来安全高效推广分布式存储?

嘉宾:李静 产品解决方案总监 , XSKY
分布式存储,从近些年客户实际使用看,其稳定性、可靠性表现并不弱于传统集中式存储,其基于多副本/EC等方式的数据冗余策略,可以灵活实现盘级、节点级、机柜级的可靠性保障,结合双活、远程复制等特性,可以实现跨机房跨地域的容灾保护;基于存储集群系统提供的亚健康检测机制,可以针对硬盘、存储网络等提前识别潜在的故障点(如慢盘),提前隔离,确保整个集群的可靠性,包括华为、XSKY等厂家均具备这样的能力;

对于存储系统的运维管理,分布式存储系统也有自身很多高价值的优势,包括多集群的统一集中管理、可视化的展示、在线的扩容,业务自动均衡等,对于SDS软件定义的分布式存储,诸如XSKY的产品,可以提供软硬解耦和软硬一体的方案灵活选择,通过完善的硬件厂商生态合作,支持广泛的硬件平台混合部署,支持跨平台的数据在线流动,可以有效解决传统集中式存储维保到期面临的数据迁移头痛问题,同时也为金融客户在做国产化试点中可实现Intel X86和国产硬件平台共存、平缓演进的需求。

客户选择分布式存储,更多需要依赖自身考虑的应用场景对存储系统的要求,包括综合衡量性能(iops/时延/吞吐)、数据量/扩展能力、可靠性、成本等因素,此外还需要结合存储服务的类型选择块、文件、对象存储。

分布式存储软件的版本迭代要求业务无感知的情况下可以升级,这也是业务在选型分布式存储很重要的考量点,针对硬件的兼容适配以及服务故障情况下的问题解决,规避方案可以考虑采购一体机,另外如果必须软硬件分离,严选分布式软件兼容性列表的部件,可以很好的规避很多问题;

嘉宾:light_hu86 系统工程师 , 某省金融
1) 面对分布式存储设备数量规模逐渐增长,面对数量庞大的集群,设备故障的概率也在增大,面对几乎每日都有出现的设备故障,对运维来说也是一个挑战,几乎每日都要处理相关的设备故障;
2) 容量管理,对于整体存储而言,容量管理对运维来说是事先要规划好的的容量横线,当超过横线后通过扩容或删除数据等方式确保容量的饱和度;
3) 监控,分布式存储告警与行内统一监控系统对接,底层设备监控做到监控全覆盖,实现告警及时推送,及时告知,及时处理;
4) 备份,对于分布式存储重要数据,特别是平台侧数据或重要业务的数据,备份也是需要的,通过跨中心灾备的形式确保数据的跨中心同步复制。

嘉宾:radiumguo ITS , 英特尔社区
无论是软硬分离采购的模式,还是使用SDS分布式存储一体机,存储管理员对服务器硬件的理解和管理能力都是很重要的,我们所见的过相当一部分问题来自于系统设计或使用者不了解服务器类产品的特点,规格和管理方式。SDS分布式存储毕竟是一个构建在标准服务器上的开放系统,会有更多传统存储管理上涉及不到的问题。

嘉宾:匿名用户
如果说对于运维的挑战,不如说对业务的挑战,简单总结,其实就三点:多场景,高可靠,高性能。下面进行展开。
可靠性、性能、扩展性满足要求,关键在于节点扩容能够保证保证性能和容量随节点增加而线性增长,同时需要保证IO的读写性能,其中需要考虑一个问题,IO的读写对于集中式存储而言,是非常简单的,只需要写入一个磁盘阵列中就算可以,在分布式存储中,需要写入若干个节点才判定成功,如果出现问题,排查也是一件比较困难的事,其中涉及了分布式存储的集群架构。
其二,场景化能力,主要涵盖了容器、云、虚拟化的复杂场景,还包括了数据库的场景。需要满足双活和异地容灾的能力,需要通过灵活的配置,满足不同业务的存储需求,能够有效降低各类存储系统的投资和管理成本。
其三,管理方面的挑战,主要在监控和迁移,对于监控而言,当大量的节点存在,监控的范围也线性增加,出现问题的时候,需要判断节点和节点之间的作用。对于迁移而言,海量小文件或数据导致分批迁移的难点增大。

嘉宾:匿名用户
尽量选软硬件自产自销的产品,如华为,兼容性,可维护性都有保障,也不会软硬扯皮。分布式无非就是外形变了,里子还是一样,总线变网线而已。

五、分布式块存储在信创背景下基于芯片等如何进行规划和架构?

5.5 国产芯片的分布式存储与传统intel芯片的分布式存储有哪些差异?

国产芯片的分布式存储与传统intel芯片的分布式存储有哪些差异,选择国产芯片的分布式存储在架构上需要关注哪些关键点?

嘉宾:ight_hu86 系统工程师 , 某省金融
目前国产芯片主要有龙芯、兆芯、申威、飞腾、鲲鹏、海光等芯片,主要在X86架构和ARM架构等,而国产X86架构的如海光相比于Intel在纳米数以及性能方面存在着少许差距,而基于XC要求,对国产芯片部署的分布式存储架构关注的点主要还是在架构(是x86还是arm),性能、稳定性和可靠性等方面。

嘉宾:李静 产品解决方案总监 , XSKY
1) 可靠性、稳定性,Intel平台经过很长历史的检验,其稳定性得到充分认可,国产硬件平台还需要经过一定时间周期的验证;
2) 性能,在同等配置下,两个平台提供的性能差异;
3) 生态,国产硬件平台与各应用的兼容适配;
4) 分布式存储软件和国产化芯片的适配完整度

5.6 信创背景下的存算该如何选择?

目前我们自己有在考虑新建信创虚拟化平台,但是对于存算合一还是存算分离的十字路口,如何选择,非常犹豫。各有优势,又各有缺点。

嘉宾:李静 产品解决方案总监 , XSKY
信创的硬件在持续发展和迭代过程中,可以考虑先在计算端压测其性能,如果性能不足可以增加节点,但稳定性是需要时间证明的,存储端对稳定性的要求高,信创背景下更加建议存算分离,相互之间可以做完全的故障隔离,并且节点故障只影响计算或者存储,修复的速度更快。

嘉宾:light_hu86 系统工程师 , 某省金融
目前XC还是少量应用部署,少量服务器测试,基于规模情况和应用验证情况,目前还是存储一体合适。

嘉宾:匿名用户
1、技术选型
要从实际业务需求考虑,包括吞吐量、时延、带宽、IO等性能指标,看看业务对哪些指标要求高,进而选择适合的存储方案。

2、存算一体
有效降低数据搬运的损耗,提高了性能。
适用小规模、低负载的业务,且业务相对固定
不适合高性能计算等高负载、大规模的业务。

3、存算分离
需要频繁搬运数据,容易出现性能瓶颈。
适用大规模、高负载、弹性诉求的业务,如:云平台存储
不适合小规模场景,算力和存储分别部署,成本较高。

嘉宾:匿名用户
这个问题其实是一个非常大的话题,关键还是看场景,如果是访存密集(大数据需求)和计算密集(低精度规整运算)的特征,选择存算一体,如果是云数据库,选择存算分离。

5.7 存算一体化芯片之间是如何实现协作的?还要采用存算一体+存算分离的方式?

嘉宾:intgx 行业架构师 , 英特尔社区
目前真正意义上的存算一体芯片还没有商用的,现在的实现方式是把存储更贴近CPU,以英特尔®傲腾™持久内存(Intel®Optane™Pmem)为例,傲腾存储介质通过DIMM通道直连到CPU,使得I/O的时延和突破接近DDR内存的处理性能,同时具备掉电数据不丢失的能力。
这种设计对存算一体和存算分离都有帮助,并不冲突。

嘉宾:light_hu86 系统工程师 , 某省金融
存算一体化CPU即用做计算能力,也用做存储能力,即处理计算,又处理存储。

六、交流达成的共识总结

通过本场银行同业间的交流和探讨达成如下一些交流共识,仅供参考:
(1)就银行业务的发展,出现的互联网类业务、海量存储等场景,分布式块存储的出现弥补了传统存储在部分业务和场景上的缺失和不足,以高扩展、高性能、高可靠等特点为业务的发展奠定数据基础。
(2)就存算一体和存算分离两种不同的架构和特性,分析和得出各自适用的场景和不适用的场景,以便更好的选择和使用。
(3)在分布式块存储落地和建设的过程中,需要关心性能提升和平台稳定。
(4)分布式块存储运维过程关注点有包括:网络、设备故障、备份等。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

2

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广