系统集成分布式存储

目前分布式存储是否适用大多数行业和应用?

随着X86性能的提升和万兆 10万兆网络的发展,分布式存储的瓶颈似乎也越来越少,除了特殊行业如金融等对IO有特殊要求的行业。分布式存储是否适用在大多数行业和应用中呢。
以我目前接触过两个例子来说。一个用的超融合运行大数据分析业务,另一个用的Vsan运行虚拟化,上面分布数据库,中间件等,由于业务没有那么大的压力。所以目前看分布式存储是可以胜任这样的环境的。
在实际更多的行业中,还有那些除了对IO有很高要求的行业以外,不适用分布式存储的应用呢

参与23

10同行回答

whistwuwhistwu资深解决方案经理SmartX超融合
我的答案是肯定的,分布式存储将适用大多数行业和应用。在此之前,我们来了解大多数行业和应用对存储的诉求是什么?刚开始的时候,我们只需要一个能存储数据文件的设备,随着数据量越来越多,应用越来越多,我们需要更大空间的存储,而且大家能共享使用,不会造成资源浪费,这时通过光纤网络...显示全部

我的答案是肯定的,分布式存储将适用大多数行业和应用。
在此之前,我们来了解大多数行业和应用对存储的诉求是什么?
刚开始的时候,我们只需要一个能存储数据文件的设备,随着数据量越来越多,应用越来越多,我们需要更大空间的存储,而且大家能共享使用,不会造成资源浪费,这时通过光纤网络共享的SAN存储满足了需求;同时,SAN存储的快速发展还受益于IOE的架构体系,这中间的“O”就是数据库体系,因为数据库对IO性能的要求苛刻,SAN存储的IO性能和响应时间能够满足要求。
因此“高性能”是大多数行业对存储的诉求之一,同时也是对分布式存储的诉求。
刚开始的时候,因为分布式架构和产品成熟的因素,性能确实是考验分布式存储的一个难关,记得2017年中国移动组织了第一次分布式存储集采,结果包括华为在内的17家送测厂商无一例外失败了,其中最主要的原因就是性能不达标。
行业里第一个想到的办法是超融合,计算虚拟化+分布式存储融合在一起,将数据更加靠近计算,没有存储网络的延迟影响,能发挥设备的极致性能。有意思的是IDC报告里把HCI超融合和分布式块存储的市场放在一起来统计,是有一些道理的,因为超融合主要面对的是生产核心系统的领域,而这正好也是分布式块存储的目标市场之一。但是企业里还是有很多应用没有用虚拟机的,这部分怎么办呢,所以存算分离的场景是分布式存储重点的方向之一。
影响分布式存储性能有很多方面,最重要的主要是两点,介质和传输网络,对于分布式存储系统来说,介质可以选择高性能的全闪磁盘,甚至全NVMe的SSD磁盘,能达到较高的IO性能,对于网络来说,分布式存储选用iSCSI连接方式比较多,但我们知道,iSCSI作为存储接口使用走的是TCP/IP网络,TCP/IP网络为非无损网络,意味着一旦有丢包,存储性能会下降非常快,最新的方式是采用NVMe-oF作为传输协议,通过NVMe over Fabric实现NVMe标准在PCIe总线上的扩展,以此来挑战SCSI在SAN中的统治地位,同时这也非常适合分布式存储架构,NVMe-oF配合RoCE v2,能够使得分布式存储的响应时间达到了微秒级别。
其次,需要企业对存储的另一诉求是“可靠性”。
传统的SAN存储可靠性主要是采用了部件冗余和RAID技术,因为系统的工业化集成程度高,耦合性好,所以故障报修的问题少,而现在的分布式存储中,更多的考虑是通用型号的X86服务器设备作为平台,适用性较好,通过纠删码和副本技术来保护数据不会因为硬件故障而丢失,同时,考虑冗余的角度变成了防止硬盘故障、节点故障、网络故障和集群故障等,用通俗的话来说,一个是按法拉利F1方程式来设计的,一个是按方便实用特斯拉电动车型设计的,当然这里说的是高端的磁盘阵列,普通的双控传统存储可能还远远达不到F1方程式级别。
从企业应用角度还要考察的第三项是“稳定性”。
正常情况下,分布式存储平稳运行是基础,需要考虑的系统是出现问题的时候,处在非健康状态下是否也能平稳运行,比如磁盘故障恢复时、部分节点故障后、网络亚健康时、存储容量达到80%的时候,这都是考验各分布式厂商技术功底,特别是在数据库环境下,更考验分布式存储厂商是否有长时间的技术积累,相信随着技术发展和分布式存储软件的迭代,分布式存储的稳定性会更好。
如果阅读中国IDC2021年上半年的报告,你会发现分布式存储和超融合已经不声不响的占了快一半的市场份额,比去年同期还高了5.8%,从市场表现上来看未来的分布式存储毫无疑问是适用大多数行业和应用的。

收起
IT咨询服务 · 2021-11-10
浏览1730
一只红松鼠一只红松鼠其它其它
从题主的描述来看,问题可能是“采用通用X86服务器的分布式存储是否适用大多数行业(比如问题中的超融合)”,甚至可能是“采用通用 X86服务器 +分布式软件 是否适用大多数行业(VSAN的例子) ”。所以分别回答一下这几种情况。 首先以我的经历,IT业务场景的差异是非常巨大的。几年前...显示全部

从题主的描述来看,问题可能是“采用通用X86服务器的分布式存储是否适用大多数行业(比如问题中的超融合)”,甚至可能是“采用通用 X86服务器 +分布式软件 是否适用大多数行业(VSAN的例子) ”。所以分别回答一下这几种情况。
首先以我的经历,IT业务场景的差异是非常巨大的。几年前一个项目招了几个DBA,干了几天发现他工作方法效率非常低,不像有几年的经验的样子。后来明白了,他以前搞的数据库1T就很大了,而我们的业务抄起来就是几T甚至十几T,他原来效率很高的方法就变成了很低效的方法。

具体到提问, 第一,分布式存储,仅讨论使用分布式架构的存储的话,那么大部分场景都是适用的(参见另一话题回复)。例外之处反而可能不是高IO,而是一些小场景。因为分布式架构需要一定规模才能发挥性能、成本优势,小场景反而是磁盘队列的优势。

那么我们来看看 “采用通用X86服务器的分布式存储是否适用大多数行业 ”。我借用下AWS的实践来回答,因为AWS能看到场景应该比我们能遇到的丰富得多。AWS的存储绝对是分布式的,早期也是用通用服务器的,网络是10GE。很符合题主描述的情况。但从去年发布的EBS IO2 Express,开始使用专有硬件、专有网络协议。网络带宽没有看到,但因为估计要承载ROCE,25GE是大概率。
从AWS上抓了不同卷类型的特点、场景对比表,应该比较符合题主的问题方向,但也不可能完美解答。比如Oracle,虚拟桌面等等在多种类型的存储中都出现过,应该用哪种,恐怕AWS也说不太清。这就像我找的DBA,他理解的最大,IO密集型,中小等概念,和我理解的可能不在一个位面。

卷类型EBS预置的IOPS SSD(io2 Block Express)EBS预置IOPS SSD(io2)EBS预置的IOPS SSD(io1)EBS通用SSD(gp3)EBS通用SSD(gp2)*
简短的介绍最高性能的SSD卷,专为对延迟至关重要的关键业务事务型工作负载而设计最高性能和最高耐用性的SSD卷设计用于对延迟敏感的事务性工作负载高性能SSD卷,专为对延迟敏感的事务性工作负载而设计成本最低的SSD,可平衡各种事务性工作负载的价格性能通用SSD容量,可平衡各种交易工作负载的价格性能
耐用性99.999%99.999%99.8%-99.9%的耐久性99.8%-99.9%的耐久性99.8%-99.9%的耐久性
用例NoSQL和关系数据库(如Oracle,SAP HANA,Microsoft SQL Server和SAS Analytics)的最大,最I / O密集型,关键任务部署I / O密集型NoSQL和关系数据库I / O密集型NoSQL和关系数据库虚拟桌面,中等大小的单实例数据库(例如Microsoft SQL Server和Oracle),对延迟敏感的交互式应用程序,启动卷和开发/测试环境虚拟桌面,中等大小的单实例数据库(例如Microsoft SQL Server和Oracle),对延迟敏感的交互式应用程序,启动卷和开发/测试环境

不过这张表还是能看出很多信息,简单解读一下:

  1. 对存储的选择除了性能还有可靠性,对应题主的问题,除了金融等特殊行业,要求可靠性高的场景也很多
    2. 而从存储能力方面,高性能和高可靠往往是相伴而生的,即使性能要求不高,有很高可靠性需求也要使用比较高端的存储,只能全都要,不能二选一
    2. 高性能、高可靠的需求大量存在,否则AWS也不必花那么大投入,还收购了一家公司来补齐这部分能力;
    3. 高性能高可靠是很难实现的,AWS只是实现了个预览版,而且通用硬件已经搞不定了。
    至于像VSAN这样完全分离的方案,要考虑的因素还有软件的能力。VSAN是很强大的软件,运维也比较容易。如果使用其它产品,可靠性,运维能力也是需要考虑的。
收起
IT咨询服务 · 2021-11-10
浏览1837
  • 补充说明,表中的信息记忆中是从英文网站扒的,但时间长了,找不到链接了。而且用的机器翻译,各位凑合看吧。
    2021-11-10

提问者

pysx0503
pysx0503153369
系统工程师第十区。散人
擅长领域: 存储备份服务器

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2021-11-08
  • 关注会员:10 人
  • 问题浏览:6658
  • 最近回答:2021-11-11
  • X社区推广