系统集成分布式存储

目前分布式存储是否适用大多数行业和应用?

随着X86性能的提升和万兆 10万兆网络的发展,分布式存储的瓶颈似乎也越来越少,除了特殊行业如金融等对IO有特殊要求的行业。分布式存储是否适用在大多数行业和应用中呢。
以我目前接触过两个例子来说。一个用的超融合运行大数据分析业务,另一个用的Vsan运行虚拟化,上面分布数据库,中间件等,由于业务没有那么大的压力。所以目前看分布式存储是可以胜任这样的环境的。
在实际更多的行业中,还有那些除了对IO有很高要求的行业以外,不适用分布式存储的应用呢

参与23

10同行回答

s6dongs6dongit技术咨询顾问东软集团
首先,随着X86服务器性能的提高,10GE/100GE网络的性能提升、固态硬盘的普及和大容量硬盘的出现,分布式存储确实越来越突显出其优势,性价比高,规模化部署成本低,性能线性增长,这些特性让越来越多的行业正在将业务更多的部署在分布式存储上。从前几年的试探性部署,到现在的规模化部...显示全部

首先,随着X86服务器性能的提高,10GE/100GE网络的性能提升、固态硬盘的普及和大容量硬盘的出现,分布式存储确实越来越突显出其优势,性价比高,规模化部署成本低,性能线性增长,这些特性让越来越多的行业正在将业务更多的部署在分布式存储上。从前几年的试探性部署,到现在的规模化部署,分布式存储的市场增长率,在大容量存储市场,已经显著的超过了传统架构的集中式存储。
其次,我们需要看到,各个行业虽然都在大规模的部署分布式存储,但是传统的集中架构式存储仍有市场空间,目前据我了解,还没有任何一个行业的存储市场完全被分布式存储替代,仍然是混合架构,而非专有架构。
最后,我们从两个不同的行业进行分析,看一下具体的应用场景。
1、医疗行业,最适合分布式存储部署的场景就是PACS文件系统,这类系统的应用特点是对文件存储有大容量的存储需求,同时又要求高性能。平均每个大型医院每年的数据增长量有几十TB,所以传统集中存储架构已经不适合这种大规模的数据量增长需求。最不适合分布式存储部署的是核心HIS系统,这类系统数据量不大,通常只有最多只有几个TB,每年数据增长几十GB,但是对I/O非常敏感,而且涉及到财务,对数据一致性要求也比较高, 不太适用分布式存储。
2、政府行业,最 适合分布式存储部署的场景是大数据平台、电子公文系统等,类似公文这类系统通常需要存储大量的邮件附件等文件,对数据量要求比较高,但是性能要求一般,使用大容量低成本硬盘组件分布式存储是非常合适的,不但可以降低政府部门投资,灵活的扩展能力也可以将系统投资按年进行扩容,合理分配预算。最不适合的是电子政务的数据库系统,通常这类系统存储民生等关键业务数据,特别是在做全国数据集中核算过程中,对I/O和数据一致性要求都比较高,不太适用分布式存储架构。

收起
互联网服务 · 2021-11-10
浏览1749
haizdlhaizdl技术经理大连
首先,分布式存储这个概念不是一个唯一的产品,很多产品都可以归为分布式存储的范畴。例如有分布式对象存储,分布式文件系统存储。不同的产品由于其数据存取及组织方式的差异,必然有自己最适合和擅长的场景,当然也会存在自己的短板。所以,分析分布式存储适合什么样的行业和应用,如...显示全部

首先,分布式存储这个概念不是一个唯一的产品,很多产品都可以归为分布式存储的范畴。例如有分布式对象存储,分布式文件系统存储。不同的产品由于其数据存取及组织方式的差异,必然有自己最适合和擅长的场景,当然也会存在自己的短板。

所以,分析分布式存储适合什么样的行业和应用,如能聚焦到某一类产品上来,会更有针对性。再有我们分析这个产品适不适合这个行业和应用,需要从应用所处的场景特点来分析。

就通用分析而言,无论是分布式对象还是分布式文件系统类的产品,目前应用的大多数场景还是企业的一些非结构化及半结构化的数据存储及分析场景。一方面是数据量级的问题,另外一方面是数据本身的结构特点,再有一个就是扩展性的问题。但是对于传统的关系型数据库类的应用,由于其数据量级、数据并发控制的严格性以及稳定性等方面要求,大多数还是在传统集中式存储上。对于一些分析类的应用,由于互联网的融入,数据特点及量级方面都有了质的变化,因此大家都是根据具体应用特点采用NOSQL+分布式存储+定向开发等形成一套具有自己独特应用特点的数据中后台。

收起
银行 · 2021-11-10
JavonJavon项目经理极道科技(北京)有限公司
分布式存储更适合于大量或海量的数据存储,易于扩展和高并发读写。 分布式存储大多为文件存储和对象存储,适合存储非结构化数据,如果满足上述特征的场景,分布式存储更加合适。反之,数据量不大,增速不快,多为结构化数据,例如CRM,ERP系统所产生的数据,则传统存储就可以满足需求了。...显示全部

分布式存储更适合于大量或海量的数据存储,易于扩展和高并发读写。
分布式存储大多为文件存储和对象存储,适合存储非结构化数据,如果满足上述特征的场景,分布式存储更加合适。反之,数据量不大,增速不快,多为结构化数据,例如CRM,ERP系统所产生的数据,则传统存储就可以满足需求了。

收起
软件开发 · 2021-11-11
浏览1593
pysx0503pysx0503系统工程师第十区。散人
看了这么多回答。受益良多,的确。目前看这两种架构的应用的确是具有一定的特征性。分布式存储倾向于非结构化数据,海量数据,可扩展。而传统的san存储更加倾向应用在数据库等核心结构化数据业务中,高iops,稳定。好像很多行业信息化发展到一定规模时也都可以清晰的划分出这两种...显示全部

看了这么多回答。受益良多,的确。目前看这两种架构的应用的确是具有一定的特征性。分布式存储倾向于非结构化数据,海量数据,可扩展。而传统的san存储更加倾向应用在数据库等核心结构化数据业务中,高iops,稳定。
好像很多行业信息化发展到一定规模时也都可以清晰的划分出这两种类型的数据来对应相应的存储方式。不过对于一些中小企业,我觉得有些尴尬,对于这样的企业来说。结构化和非结构化数据都有。但又都没有达到一定体量,从技术也好,资金投入也好,可能都没办法选择两套存储架构。最后只能不得不纠结的选择一套架构。以我目前接触的一个例子来说,最后选择了超融合,相比传统的san架构可能在使用上更简便一些。不过下面一位大神的回复也的确让我深有体会
1  “软件定义的分布式存储”在可用容量单价方面相比传统存储贵太多了:看着三副本选项后容量的缩减,简直是在割肉一样,即便是纠删码,这种容量的损耗还是比raid5+热备要高
2  “软件定义的分布式存储”在可用容量单价方面相比传统存储贵太多了 :传统的san存储和x86的架构相互都是独立的。虽然连接维护要复杂有些,但好在结构清晰,只要对整体架构了解了。线路标识清晰,就好维护,但超融合和分布式存储这玩意高度整合,用起来是很方便,但一旦出问题的时候也的确难找到头绪,真是轻易不出问题。一出问题就找不到问题。
在我的实际使用感受中上述两点算是分布式存储让我觉得硬伤的地方,其他在应用方面,因为业务体量没有那么大,处理的数据也没有那么多。另外业务在应用上的效率也并不完全靠硬件拉起来的,好的程序和数据库优化也可以弥补一部分硬件的不足。 所以还很难对比出传统san存储和分布式存储性能上的差异。

收起
系统集成 · 2021-11-10
浏览1594
penguinhepenguinhe项目经理成方金融信息技术服务有限公司
分布式存储应用在应用服务器、中间件服务器等对IO没有极致要求和高可用方面有较高要求的分区上,结合应用、中间件和系统层面自身的双活及高可用设计,基本可以满足需求。显示全部

分布式存储应用在应用服务器、中间件服务器等对IO没有极致要求和高可用方面有较高要求的分区上,结合应用、中间件和系统层面自身的双活及高可用设计,基本可以满足需求。

收起
互联网服务 · 2021-11-10
浏览1667
whistwuwhistwu资深解决方案经理SmartX超融合
我的答案是肯定的,分布式存储将适用大多数行业和应用。在此之前,我们来了解大多数行业和应用对存储的诉求是什么?刚开始的时候,我们只需要一个能存储数据文件的设备,随着数据量越来越多,应用越来越多,我们需要更大空间的存储,而且大家能共享使用,不会造成资源浪费,这时通过光纤网络...显示全部

我的答案是肯定的,分布式存储将适用大多数行业和应用。
在此之前,我们来了解大多数行业和应用对存储的诉求是什么?
刚开始的时候,我们只需要一个能存储数据文件的设备,随着数据量越来越多,应用越来越多,我们需要更大空间的存储,而且大家能共享使用,不会造成资源浪费,这时通过光纤网络共享的SAN存储满足了需求;同时,SAN存储的快速发展还受益于IOE的架构体系,这中间的“O”就是数据库体系,因为数据库对IO性能的要求苛刻,SAN存储的IO性能和响应时间能够满足要求。
因此“高性能”是大多数行业对存储的诉求之一,同时也是对分布式存储的诉求。
刚开始的时候,因为分布式架构和产品成熟的因素,性能确实是考验分布式存储的一个难关,记得2017年中国移动组织了第一次分布式存储集采,结果包括华为在内的17家送测厂商无一例外失败了,其中最主要的原因就是性能不达标。
行业里第一个想到的办法是超融合,计算虚拟化+分布式存储融合在一起,将数据更加靠近计算,没有存储网络的延迟影响,能发挥设备的极致性能。有意思的是IDC报告里把HCI超融合和分布式块存储的市场放在一起来统计,是有一些道理的,因为超融合主要面对的是生产核心系统的领域,而这正好也是分布式块存储的目标市场之一。但是企业里还是有很多应用没有用虚拟机的,这部分怎么办呢,所以存算分离的场景是分布式存储重点的方向之一。
影响分布式存储性能有很多方面,最重要的主要是两点,介质和传输网络,对于分布式存储系统来说,介质可以选择高性能的全闪磁盘,甚至全NVMe的SSD磁盘,能达到较高的IO性能,对于网络来说,分布式存储选用iSCSI连接方式比较多,但我们知道,iSCSI作为存储接口使用走的是TCP/IP网络,TCP/IP网络为非无损网络,意味着一旦有丢包,存储性能会下降非常快,最新的方式是采用NVMe-oF作为传输协议,通过NVMe over Fabric实现NVMe标准在PCIe总线上的扩展,以此来挑战SCSI在SAN中的统治地位,同时这也非常适合分布式存储架构,NVMe-oF配合RoCE v2,能够使得分布式存储的响应时间达到了微秒级别。
其次,需要企业对存储的另一诉求是“可靠性”。
传统的SAN存储可靠性主要是采用了部件冗余和RAID技术,因为系统的工业化集成程度高,耦合性好,所以故障报修的问题少,而现在的分布式存储中,更多的考虑是通用型号的X86服务器设备作为平台,适用性较好,通过纠删码和副本技术来保护数据不会因为硬件故障而丢失,同时,考虑冗余的角度变成了防止硬盘故障、节点故障、网络故障和集群故障等,用通俗的话来说,一个是按法拉利F1方程式来设计的,一个是按方便实用特斯拉电动车型设计的,当然这里说的是高端的磁盘阵列,普通的双控传统存储可能还远远达不到F1方程式级别。
从企业应用角度还要考察的第三项是“稳定性”。
正常情况下,分布式存储平稳运行是基础,需要考虑的系统是出现问题的时候,处在非健康状态下是否也能平稳运行,比如磁盘故障恢复时、部分节点故障后、网络亚健康时、存储容量达到80%的时候,这都是考验各分布式厂商技术功底,特别是在数据库环境下,更考验分布式存储厂商是否有长时间的技术积累,相信随着技术发展和分布式存储软件的迭代,分布式存储的稳定性会更好。
如果阅读中国IDC2021年上半年的报告,你会发现分布式存储和超融合已经不声不响的占了快一半的市场份额,比去年同期还高了5.8%,从市场表现上来看未来的分布式存储毫无疑问是适用大多数行业和应用的。

收起
IT咨询服务 · 2021-11-10
浏览1704
一只红松鼠一只红松鼠其它其它
从题主的描述来看,问题可能是“采用通用X86服务器的分布式存储是否适用大多数行业(比如问题中的超融合)”,甚至可能是“采用通用 X86服务器 +分布式软件 是否适用大多数行业(VSAN的例子) ”。所以分别回答一下这几种情况。 首先以我的经历,IT业务场景的差异是非常巨大的。几年前...显示全部

从题主的描述来看,问题可能是“采用通用X86服务器的分布式存储是否适用大多数行业(比如问题中的超融合)”,甚至可能是“采用通用 X86服务器 +分布式软件 是否适用大多数行业(VSAN的例子) ”。所以分别回答一下这几种情况。
首先以我的经历,IT业务场景的差异是非常巨大的。几年前一个项目招了几个DBA,干了几天发现他工作方法效率非常低,不像有几年的经验的样子。后来明白了,他以前搞的数据库1T就很大了,而我们的业务抄起来就是几T甚至十几T,他原来效率很高的方法就变成了很低效的方法。

具体到提问, 第一,分布式存储,仅讨论使用分布式架构的存储的话,那么大部分场景都是适用的(参见另一话题回复)。例外之处反而可能不是高IO,而是一些小场景。因为分布式架构需要一定规模才能发挥性能、成本优势,小场景反而是磁盘队列的优势。

那么我们来看看 “采用通用X86服务器的分布式存储是否适用大多数行业 ”。我借用下AWS的实践来回答,因为AWS能看到场景应该比我们能遇到的丰富得多。AWS的存储绝对是分布式的,早期也是用通用服务器的,网络是10GE。很符合题主描述的情况。但从去年发布的EBS IO2 Express,开始使用专有硬件、专有网络协议。网络带宽没有看到,但因为估计要承载ROCE,25GE是大概率。
从AWS上抓了不同卷类型的特点、场景对比表,应该比较符合题主的问题方向,但也不可能完美解答。比如Oracle,虚拟桌面等等在多种类型的存储中都出现过,应该用哪种,恐怕AWS也说不太清。这就像我找的DBA,他理解的最大,IO密集型,中小等概念,和我理解的可能不在一个位面。

卷类型EBS预置的IOPS SSD(io2 Block Express)EBS预置IOPS SSD(io2)EBS预置的IOPS SSD(io1)EBS通用SSD(gp3)EBS通用SSD(gp2)*
简短的介绍最高性能的SSD卷,专为对延迟至关重要的关键业务事务型工作负载而设计最高性能和最高耐用性的SSD卷设计用于对延迟敏感的事务性工作负载高性能SSD卷,专为对延迟敏感的事务性工作负载而设计成本最低的SSD,可平衡各种事务性工作负载的价格性能通用SSD容量,可平衡各种交易工作负载的价格性能
耐用性99.999%99.999%99.8%-99.9%的耐久性99.8%-99.9%的耐久性99.8%-99.9%的耐久性
用例NoSQL和关系数据库(如Oracle,SAP HANA,Microsoft SQL Server和SAS Analytics)的最大,最I / O密集型,关键任务部署I / O密集型NoSQL和关系数据库I / O密集型NoSQL和关系数据库虚拟桌面,中等大小的单实例数据库(例如Microsoft SQL Server和Oracle),对延迟敏感的交互式应用程序,启动卷和开发/测试环境虚拟桌面,中等大小的单实例数据库(例如Microsoft SQL Server和Oracle),对延迟敏感的交互式应用程序,启动卷和开发/测试环境

不过这张表还是能看出很多信息,简单解读一下:

  1. 对存储的选择除了性能还有可靠性,对应题主的问题,除了金融等特殊行业,要求可靠性高的场景也很多
    2. 而从存储能力方面,高性能和高可靠往往是相伴而生的,即使性能要求不高,有很高可靠性需求也要使用比较高端的存储,只能全都要,不能二选一
    2. 高性能、高可靠的需求大量存在,否则AWS也不必花那么大投入,还收购了一家公司来补齐这部分能力;
    3. 高性能高可靠是很难实现的,AWS只是实现了个预览版,而且通用硬件已经搞不定了。
    至于像VSAN这样完全分离的方案,要考虑的因素还有软件的能力。VSAN是很强大的软件,运维也比较容易。如果使用其它产品,可靠性,运维能力也是需要考虑的。
收起
IT咨询服务 · 2021-11-10
浏览1808
  • 补充说明,表中的信息记忆中是从英文网站扒的,但时间长了,找不到链接了。而且用的机器翻译,各位凑合看吧。
    2021-11-10
zhongshizhongshi产品总监XSKY
依照IDC的中国市场分析,分布式存储在国内占比已经超过40%,可以说是普适了大量的行业和场景;从场景看:1、私有云和混合云,本身就是分布式存储的主战场,在各个行业内广泛采用,其中政府、互联网、金融、运营商、教育、医疗等等行业已经稳定运行多年。2、各种类型影像类统,比如金融的...显示全部

依照IDC的中国市场分析,分布式存储在国内占比已经超过40%,可以说是普适了大量的行业和场景;

从场景看:

1、私有云和混合云,本身就是分布式存储的主战场,在各个行业内广泛采用,其中政府、互联网、金融、运营商、教育、医疗等等行业已经稳定运行多年。

2、各种类型影像类统,比如金融的ECM和双录,医疗的PACS和病理分析,高科的基因和电镜及AI,制造业的封测和MES,教育的精品课录播,自动驾驶的大量分析类数据,交通的卡口、ETC信息

3、大规模监控云,如政府和运营商的各类视频收集平台

4、海量的备份归档数据

5、两地三中心容灾

分布式比较难适配的场景, 除了对IO延迟及其敏感的场景,其他场景几乎都涉及了分布式存储,近期很多金融机构已经开始尝试利用国产化硬件配合全闪介质进行跑批测试,简单的说就是客户对于双模架构的理解已经非常深刻,不会盲目的进行站队,而是在充分理解自己应用和IO模型的情况下,选择最适合自己的数据存放方法;

随着SSD和网络技术的继续发展,我们有理由推断,分布式存储在市场中占有的场景和行业会继续增加,慢慢成为主流的数据存放方式,结合数据湖以及数据流动的概念,更快更稳定更长久的保存数据,充分发挥数据本身的价值。

收起
软件开发 · 2021-11-10
浏览1816
wwwdpwwwdp项目经理西安未来国际信息股份有限公司
       分布式存储目前在公安和交通的视频监控应用和视频图像分析、卡口图像(人脸/车辆识别)、大数据分析后端都有广泛的应用。       有些厂家的分布式存储可提供集文件存储、对象存储、块存储、大数据四种存储服务于一身的分布式存储架构,通过横向扩展基础...显示全部

       分布式存储目前在公安和交通的视频监控应用和视频图像分析、卡口图像(人脸/车辆识别)、大数据分析后端都有广泛的应用。
       有些厂家的分布式存储可提供集文件存储、对象存储、块存储、大数据四种存储服务于一身的分布式存储架构,通过横向扩展基础架构实现单系统存储节点扩展至数千个,形成EB级海量存储空间、百亿数据文件管理、千万级IOPS和百GB带宽,并凭借其高效可靠的数据自动修复和自动运维机制,显著降低了存储管理的负担。
        分布式存储采用全对称、去中心化分布式架构,将系统的数据和元数据平均的分布到各个节点上,打破了传统系统的元数据集中式存储和管理这一限制,对系统的目录实行分而治之,实现负荷分担、负载均衡;即使系统中出现节点故障,系统也能够通过数据冗余规则以及故障修复迅速进行响应,恢复故障节点存储的数据及元数据信息,提供比传统存储系统更高的可靠性。
       分布式存储系统完成系统中各个节点存储资源的组织,对外提供统一API、支持不同协议的存储服务。
       分布式存储通过iSCSI协议对外界提供块级别设备接口,采用分布式系统技术、高可用系统技术将大量的存储设备进行集中管理,并支持快照、克隆、卷QoS、精简配置等功能,提高资源利用率,保证关键业务的性能。
       分布式存储系统通过HDFS API提供大数据服务,使用HDFS可以将存储系统强大的分布式存储能力与Hadoop中MapReduce强大的并行任务处理能力相融合,并结合HDFS 相关组件,将数据直接存储,从架构上解决数据爆炸性增长、非结构化数据分析速度缓慢等问题;通过数据共享访问能力的提升与接口的开放,可实现跨平台的数据共享访问,满足不同应用的需求。
       分布式存储系统可以根据客户业务需求,灵活的添加或者移除存储节点,从而将数据和应用程序从硬件抽象出来。当向系统中添加节点时,每个节点或者机箱都将聚合增加CPU、内存、缓存、网络等资源,使系统整体性能高于各部分总和,提高吞吐量、容量和IOPS。
      分布式存储采用了元数据集群和基于一致性哈希算法的去中心化技术,支持节点动态扩展,不存在性能瓶颈。随着节点数的增加,存储容量和计算能力线性增加,最终给用户提供呈线性递增的吞吐及并发能力。
      客户为保证存储空间利用率,分布式存储提供清空回收站与定时删除功能。分布式文件系统回收站和分布式块存储系统回收站数据存储位置及方式不同,因此清空和清理时限的设置要分别进行。清空回收站操作需要慎重处理,在清除数据之前,需要查看回收站,确认没有需要的数据,再进行此项操作。而定时删除功能降低了用户的管理负担,用户可以自由设定定期扫描时间和文件目录/逻辑卷超时时间,系统每隔一段时间在后台运行扫描一次,遍历回收站目录下所有日期目录或卷回收站内卷删除时间,获取当前时间,与日期目录或卷删除时间进行比较,对小于文件目录超时时间的文件/目录/逻辑卷不允许删除,反之,则进行自动删除操作。
      分布式存储将零散的存储资源集合起来,提供一个统一命名空间给用户,使用户可通过任何节点接入系统并处理客户端连接请求。为均衡分发客户端的连接请求并确保业务可靠性,提供“轮询机制”、“连接数机制”、“cpu机制”、“memory机制”、“bandwidth机制”的负载均衡策略供用户自主选择,系统根据选定的策略将多客户端连接到系统各节点,使得不同存储节点业务、硬盘压力相对均衡,优化系统资源的使用。

收起
政府机关 · 2021-11-10
浏览1764
TBTB技术总监洪雪
摘一段某金融行业工程师的话,应该也是出自TWT的话题1,分布式存储没有大量使用,其中一个最大的原因是“软件定义的分布式存储”在可用容量单价方面相比传统存储贵太多了,我们金融企业真心用不起。2,高可用方面,分布式存储高可用方面对比传统SAN存储有明显差距,无论是单节点重启影...显示全部

摘一段某金融行业工程师的话,应该也是出自TWT的话题
1,分布式存储没有大量使用,其中一个最大的原因是“软件定义的分布式存储”在可用容量单价方面相比传统存储贵太多了,我们金融企业真心用不起。
2,高可用方面,分布式存储高可用方面对比传统SAN存储有明显差距,无论是单节点重启影响,微码升级影响等各方面在IO静默时间IO跌落幅度和长度方面差距太明显了。
3,集中式架构决定性能可做得更好更极致更低时延。分布式架构天然上性能低时延不如集中式。
4,经历者曾经有几十PB 几十套软件定义分布式存储(厂商产品)的运维经验:对比传统集中式存储软件定义的设备故障时的影响持续时间和修复难度要高得多。最怕遇到的是软件bug或是某个软件模块服务异常,这种情况一般很难快速修复,甚至要等几天到周的时间等厂商写hotfix 然后打上修复。

收起
系统集成 · 2021-11-09
浏览1775

提问者

pysx0503
pysx0503153369
系统工程师第十区。散人
擅长领域: 存储备份服务器

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2021-11-08
  • 关注会员:10 人
  • 问题浏览:6574
  • 最近回答:2021-11-11
  • X社区推广