赵海
作者赵海2021-11-03 09:11
技术经理, 大连

存储架构技术发展演进历史30年(下)

字数 5021阅读 818评论 0赞 6

【摘要】:随着信息技术的发展,数据已经成为企业的战略资源,如何存储数据以及如何利用数据也已成为企业科技部门研究的热点话题,尤其是伴随着近些年的互联网革命,数据存储世界也发生了翻天覆地的变化,出现了很多新的名词、新的产品、新的趋势等等。面对这些眼花缭乱的事务,如何抽丝剥茧抓住事务的本质其实是从事技术研究工作的首要任务。而对于分布式存储技术这个领域,我认为需要从纵向的存储技术发展脉络和横向的主流技术对比两个方面来深刻认识。

一、软件定义存储的兴起和存储架构的百花齐放年代

伴随着2010年之后的互联网迅速发展,企业的应用发生了很大的变化。
应用访问模式上 ,伴随着Web1.0、2.0、3.0的飞速发展,越来越多的业务模式转变为BS模式,业务访问的并发量上发生了有史以来最大量级的升级。 业务特性上 ,分析类业务剧增,依靠数据分析挖掘商机的时代到来。大数据、BI等新型业务系统纷纷在企业信息系统群中上线,数据本身的再生产价值能力受到空前的重视。 业务跨度上 ,伴随着云计算的发展,越来越多的业务成为互联网业务,不仅仅需要从云端获取必须的数据,而且需要从云端获取海量数据生产加工之后的价值数据。 企业数据上 ,越来越多的非结构化、半结构化数据形态涌入企业应用系统;数据量级呈爆发式的增长;数据生命周期管理由原来的在线离线为主的模式转变为多生命周期的模式;数据分析成为企业必备的核心后台。

在这些变化的驱动下,传统SAN存储架构已无法满足某些企业数据存储的灵活性、扩展性、并发性等方面的需求,于是一些互联网企业率先开启软件定义的应用之路。从2014到2019的五年时间内,软件定义存储的市场将从14亿美元增长到62亿美元以上,年复合增长率高达35%。而2017年也被誉为是软件定义技术的元年。Apache Cassandra、CouchDB、MongoDB、Redis等一系列NOSQL数据库软件解决方案逐步走进互联网企业并且成熟,Ceph、Swift、GlusterFS等对象及文件系统类软件存储解决方案也逐步走进企业的IT试验田。

说了这么多,究竟是软件定义存储(SDS,Software Defined Storage)?

软件定义简单来说就是指资源由软件自动控制,通过抽象、池化和自动化等一系列处理后,将标准服务器内置存储、直连存储,外置存储,或者云存储等等的存储资源整合起来,实现应用感知或者基于策略驱动的部署、变更和管理,最终达到存储即服务的目标。

图1.1 SD S存储框架图

SDS(Software Defined Storage)
从图中的框架来看,首先需要明确的是SDS并不是某一款具体的存储产品,而是一个技术框架,一种技术理念。从下往上,共有四个层次: 存储设备层 是最底层的数据存储物理载体,在这种框架下,对物理存储载体的要求空前放宽,任何性能、任何形态、任何容量、任何连接都可以接受。只要他们具备一个条件即可,那就是可以被上层操作系统设别为可用存储介质,可以定义为上层操作系统的可用设备。 操作系统层 承载着两方面的作用,一方面需要识别到底层可用的存储设备,另外一方面要提供软件运行的环境。 SDS APS也就是存储软件层 ,无论是什么样的存储软件,它只是作为操作系统环境运行的一个软件,其特殊之处在于它可以将系统识别到的存储设备进行整合并以应用可以操作的接口提供给应用。 最上层的Data RW API,也就是数据的读写接口 ,它可以按照应用可以读写的数据库语言接口方式、数据文件方式或者是普通的文件系统、对象接口、Block存储接口等方式提供给应用程序所用。

为什么软件定义存储会在2014年之后逐渐兴盛

首先,任何事务都不是孤立产生的,SDS同样是这样的。当现有环境下的事物无法满足特定需求时,人类必然会探求新的解决方案。当传统SAN存储无法解决互联网带来的 特殊数据形态存储需求 ,无法解决数据量暴涨带来的 存储TCO困惑 ,无法解决突如其来的 并发量带来的访问性能瓶颈 的时候,一些互联网企业开始将一些尘封在实验室或者大学研究室当中的思路探索性的应用到了自己的新环境。例如,谷歌在2003、2004、2006年仅以学术共享形式发表的 Google FS、MapReduce、BigTable三篇论文,十年之后却成为互联网企业实际应用的先驱模板。而且随着企业业务模式的不断发展,这些源代码经历了多次有针对性的优化和改造,解决了很多新的场景问题。

在SDS兴起的时代,存储架构技术有了哪些新的变化和发展?

1.新型数据库类(NOSQL)的数据存储解决方案不断涌现。

互联网业务高度并发的场景下,Redis、Memcache在逐渐成为主流的键值型缓存解决方案;面对互联网的海量HTML网页型的数据场景,Hbase等系列列式数据库成为主流解决方案;面对实体关系类的社交数据场景,Nego4j系列图形数据库逐渐走进一些以社交业务为主的互联网企业;MogoDB系列文档数据库逐渐替代以NAS及内容管理软件组合起来的影像类解决方案。

总而言之,新数据类型的出现激发了很多基于新型数据类型以及新的数据存取及访问特点而产生的新数据存储需求,而这些新的数据存储需求又促生了这些新的NOSQL数据库解决方案。

2.超融合架构技术在制造行业应用的不断扩展。

以提供存储产品的厂家不可能坐视自己的市场份额逐渐减少,于是在百花齐放的年代他们开始认真审视自己的产品和时代的特点,针对于IT自控能力不足,但是又希望能够适应时代特点,分享新技术带来收益的一部分企业群体,提出了超融合架构解决方案。以起初的EMC VxRail、Nutanix、Cisco HyperFlex等为代表发展到华为、华三、联想、深信服、SmartX等百花齐放的阶段,场面可谓壮观。

众多的超融合解决方案在存储层面,基于vSan、HDFS、HXDP、Ceph等软件定义存储原型进行优化改造并封装成通用商业产品融入超融合架构。

3.对象存储的应用由媒体视频行业扩展到制造、交通、政府以及金融等各个行业。

虽然互联网应用对性能和容量的要求极高,但是对其它特性却没什么特别的要求。甚至可以说它对其它特性基本上没有太多要求。由于其存储的主要是图片,而且对图片的存储是一次存储,多次访问,没有修改。在这种需求的驱动下,对象存储解决方案应用而生。2004-2009年间,出现了真正的对象存储先锋。主要的厂商为Caringo, Cleversafe, Amplidata, Compuverde, DDN(Bucket File System)等。Ceph是2014年通过Inktank以1.75亿美元收购,而Gluster则早在2011年就被红帽以1.36亿美元收购。对象存储应用领域也从最初的互联网行业的图片、视频存储覆盖到了各行各业的非结构化数据存储领域。

4.SAN存储从通用企业级存储解决方案逐渐走向高性能结构化数据存储解决方案场景。

在这个特殊的时代,随着数据存储的各种新需求出现,存储架构也呈现百花齐放的状态。独霸江湖数十年的SAN存储终于有了更聚焦的定位。尽管很多数据存储场景找到了更适合的软件定义存储产品或是对象存储产品,但是以结构化数据为存储对象的传统应用场景似乎还是非SAN存储莫属。由于结构化数据结构与Block存储的天然契合性、结构化数据读取性能的要求以及结构化数据对并发控制的严格要求导致SAN存储依然独树一帜。于是越来越多的企业将SAN存储的定位更明确化清晰化。

二、存储架构技术沉淀并分类聚焦的时代

近些年来,伴随着一些历史事件的发生,存储架构技术的发展伴随着百花争鸣的喧嚣逐渐走向了安静。该淘汰的淘汰,该沉淀的沉淀,最终呈现出清晰的发展脉络。首先我们来看一些有意义的历史事件:

2010年:EMC收购Isilon;
2012年:VMware提出SDDC(软件定义数据中心)和SDS(软件定义存储)的概念,之后推出SDS产品 – Virtual SAN的预览版;
2013年:Avago收购LSI;
2014年:闪迪收购Fusion-io;
2015年:XSKY成立;
2016年:IBM收购对象存储;HCI(超融合)概念提出者Nutanix上市;
2017年:HPE收购Nimble Storage;
2018年:微软收购混合云数据存储公司Avere Systems;
2019年:AWS收购E8 Storage;谷歌收购存储企业Elastifile;IBM收购 RedHat Ceph和Gluster。

存储世界发生的这些大事件推动着企业的存储架构技术变革也呈现出一系列清晰的脉络:

1.分布式成为企业存储架构追求的主要目标之一。

根据Gartner对于2020年全球外置存储市场统计来看,分布式存储发货容量13ZB、销售额33亿$。2018年到2023年期间,中国分布式存储市场年均复合增长率将达到22.4%。不难看出,在数据量不断暴涨和国产化趋势的双重驱动下,分布式存储逐渐成为企业追求的目标之一。

图1.1 DSS存储框架图

从架构设计角度看,大规模数据量的场景下是分布式架构最擅长的地方。传统存储阵列采用Scale-up架构,评价其架构设计好坏的标准是在有限的处理器、内存资源下提供更高的可靠性和性能,管理更大的存储容量。分布式存储采用Scale-out架构,以处理器、内存、硬盘构成一个个独立的扩展单元,客户端经由路由节点直接从各个独立扩展单元获取所需要的数据片段,其架构设计追求的目标是更大的扩展能力。从企业TCO角度看,虽然存储厂商暂时陷入比拼硬件成本的恶性竞争状态,专业的软件价值暂未得到应有认可。但是越是海量数据的场景,分布式存储的成本优势越突出。

2.SAN存储领域陆续将全闪存储作为主流SAN存储产品推出。

全闪存储指全部由固态存储介质构成的独立存储阵列或设备。全闪存储的高速发展,既是新应用对性能需求驱动的结果,也是闪存技术不断创新的成果。近些年来,各大存储厂商均推出了全闪存储产品,相较传统机械存储,在存储性能委员会(SPC)的 SPC-1 基准下,业务性能提升了5倍;在数据库场景下,业务性能提升了10倍;在虚拟桌面场景下,启动响应时间缩短 80%。

技术上与传统的机械硬盘相比较,时延从2ms降低到0.02ms,5年返还率从13.4%降低到0.8%,功率从10W降低到3W。这三大指标决定着全闪存储从性能、稳定性、节能三方面都得到了质的提升。TCO投入上与传统的SAN存储相比,二者之间的差距逐渐缩小。综合评估性价比的话,从实际印证的结果来看,企业越来越偏向于全闪存储,尤其是在关系数据库的关键应用上。

3.存储平台的数据分析支持能力逐渐被提到相当高度。

存储平台的数据分析和挖掘能力来源于电商业务的驱动,最初的电商行业主要依靠海量用户数据的分析来挖掘其潜在的商业价值。近些年来数据的价值分析已经嵌入到各行各业,金融行业用这些海量的数据来分析反洗钱、信贷管理、监管报送等业务,保险行业用其客户画像数据和海量的关联数据分析来计算客户的保险系数,制造行业用其海量的过程数据来提高产品的良率,安保行业用海量的视频数据来智能比对、精准追踪、打击犯罪,交通行业用海量的交通数据做智能交通调度等。

总而言之,数据存储平台不再是一个孤立的载体,而是向开放的、智能的、可再利用的中间平台过度,很多企业开始打造整合多种功能于一体的的数据中台和后台。

4.云存储架构逐渐融入企业IT架构当中。

面对数据增长带来的挑战,很多企业现有的FTP、NAS、Windows共享等存储共享方式已逐渐满足不了企业数据存储和管理的业务需求。据IDC数据显示,到2025年,全球创建、获取和复制的数据量将增至175ZB,其中,企业存储的数据量将会占据全球总数据量80%以上。这一数据表明企业正迅速成为生产数据和管理数据的主要载体,加上目前我国正处于云计算的高速发展时期,企业上云成为必然趋势。越来越多的企业选择将自己的日常办公数据、备份数据、归档数据、静态历史数据等活动性不强的海量数据移入云存储资源池甚至直接推向云端。

从企业运维管理的角度来讲,伴随着云计算的不断推广发展,企业IT运维管理必然走向自动化,那么存储作为云端必不可少的重要资源,它的使用和管理也必然融入企业云。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

6

添加新评论0 条评论

Ctrl+Enter 发表

本文隶属于专栏

趋势观点
本专栏的文章全部来自国内外行业或领域一线最强实践专家的深刻洞察,他们的分享如同为正在摸索前进的更多同行和企业带来一盏明灯。他们的观点也为企业迎接趋势挑战、克服各种困难提供了最好争议的标的。希望有更多一线最强实践专家加入趋势观点栏目,你们是推动中国企业IT应用最值得尊敬的人。