haozhangsir
作者haozhangsir2018-11-27 11:38
系统工程师, 银华

基于对象存储的开源架构和商用架构的对比

字数 3501阅读 4601评论 5赞 21

1:对象存储

存储局域网(SAN)和网络附加存储(NAS)是目前两种主流传统的网络存储架构,而对象存储(Object-based Storage)是一种新的网络存储架构。1999年成立的全球网络存储工业协会(SNIA)的对象存储设备工作组发布了ANSI的X3T10标准。总体上来讲,对象存储综合了NAS和SAN的优点,同时具有SAN的高速直接访问和NAS的分布式数据共享等优势,提供了具有高性能、高可靠性、跨平台以及安全的数据共享的存储体系结构。

随着非结构化数据爆发式的增长,传统的SAN和NAS存储架构不能应对数据爆发带来的问题。基于其扁平化、拓展性强的结构特点,对象存储成为非结构化数据存储的最佳解决方案。通过对象存储替代传统的SAN和NAS 存储,极大提升了非结构化数据访问和存储的效率。对象存储具有分布式存储的所有优点,灵活的拓展性,元数据的管理;通过其版本管理的强大功能,对象存储有效地规避了人为操作的逻辑错误。在性能方面,SAN存储在处理结构化数据有着不可代替的地位;小容量非结构化数据共享正是NAS存储发挥作用的场景;对于海量非结构化数据,对象存储的性能优势不可比拟。此外,对象存储成本较SAN和NAS有很大优势,应对海量文件,采用对象存储替代传统集中式存储能节省不小的存储成本,避免了资源浪费。

目前,人们需求的数据越来越多,而其中绝大部分都是非结构化数据。在未来几年,非结构化更会呈现指数型增长,对象存储的需求和市场会越来越大,互联网和传统行业都离不开对象存储的发展。

2:对象存储的两大阵营及其比较

目前,在对象存储行业存在两大阵营,分别为开源技术和商用产品。开源技术主要以Ceph为代表,Ceph是一种开源的分布式对象、块和文件存储平台。商业产品中主要以IBM、EMC和HDS三家传统存储厂商为市场主流。

2.1两大阵营:开源和商业

开源技术主要依靠开源社区的贡献,以Ceph为代表。Ceph 是一个开源的分布式存储系统,包括对象存储、块设备、文件系统。它可靠性高、管理方便、伸缩性强,能够轻松应对PB、EB级别数据。Ceph 存储体系中,核心为 RADOS,它是一个高可用分布式对象存储,该模块负责对集群众多 OSD 的运行,保证存储系统的可用性,为应用提供 RESTful 类型的对象存储接口,其接口方式支持 S3 和 Swift 两种类型。近些年,越来越多的企业尝试使用Ceph存储,并基于Ceph建立统一的对象存储资源池,用来解决近几年让企业头疼的CM内容管理平台。企业采用Ceph搭建对象存储框架,主要考虑到Ceph作为相对成熟的开源软件,其技术成本相对低廉,能为企业节省存储成本;Ceph在开源领域被广大客户接受和追求,用户之间可以相互沟通技术细节和问题处理方法,拥有广大客户群体也是Ceph被越来越多企业使用的出发点之一。

商业阵营主要由成熟的存储厂商研发产品。商业产品依靠其强大的研发团队不断根据客户需求和使用反馈对产品进行更新和换代,商业阵营深入客户,发掘客户并能够根据客户的特点开发存储产品。商业产品更符合客户要求,操作简便,易维护,商业团队会为客户的正常运行保驾护航。

2.2比较

从架构上来讲,开源技术和商业产品均采用分布式架构,可灵活进行横向扩展,满足用户对大数据量的需求。以Ceph为代表的开源技术,核心为RADOS,RADOS的架构图如下图,由Monitor+OSD节点搭建而成。商业产品通常采用访问节点+计算节点+存储节点的部署方式,更具扁平化的结构,不同节点各司其职,有机构成整个对象存储的系统。开源对象存储技术以纯软件方式部署,安装软件于客户的服务器中,通过调试进行对外服务;商业产品既可单独采购纯软件方式,更可以采购一体机方式,节省了自身部署的复杂度。

开源技术目前对跨站点部署支持有限,不能完美的进行跨站点部署;商业产品跨站点技术成熟,均可进行跨站点跨数据中心的部署,能够为客户提供容灾方案,避免站点级单点故障,安全性更高。数据可靠性方面开源技术采用多副本技术,通常采用三副本,这样的架构带来了存储成本的上升;商业产品采用纠删码技术,既能避免逻辑错误,更能节省存储开销成本。

运行维护方面,开源技术主要依靠客户的运维能力,需要很强的应急处理能力,运维成本相对较高;商业产品由厂商高水平团队对客户负责,可以根据客户的情况“因地制宜”,制定最合适的运维团队,能够及时有效的处理应急情况,保障客户的系统稳定运行。

kdh4fxvv7nc

2.3商业阵营中的几大产品

商业产品阵营中主要以IBM、EMC、HDS为代表,拥有丰富的存储开发经验以及完整的开发和维护团队。IBM的对象存储为IBM Cloud Object Storage,简称COS,被IBM收购以前叫Clever Safe。架构方面采用管理节点+访问节点+存储节点的完全分布式架构,数据在访问节点进行切片,平均分布在存储节点的磁盘中,更细颗粒度的保护数据完整性;硬件方面可以采用IBM定制机,也可以采用客户自身的经IBM认证的X86服务器,灵活高效,也可以对服务器进行利旧处理;COS容量扩展方面极其优秀,集群可扩展到EB级别,满足客户的未来发展需求;支持跨站点的部署方式;数据保护方面采用灵活多变的纠删码技术,客户可根据自身的需求调整数据可靠和容量利用的最优分配;支持数据加密、多版本管理以及防篡改的高级功能,有效保障数据的可靠性;协议方面除支持Swift和S3协议外,还支持IBM特有的simple object的接口协议;数据读写性能可达到数Gb/s的读写速度;Gartner和IDC排名连续多年排名第一。

EMC的对象存储为ECS,架构采用分布式云存储平台,通过软件实现X86服务器系统的大规模拓展管理,最大容量可达PB级别;支持跨站点的部署方式;提供两种纠删码技术,12D+4P和10D+2P两种方式,对应的容量开销分为1.33和1.2;协议方面支持Swift和S3两种方式;市场占有率位于领导者象限;

HDS的对象存储为HCP,架构采用典型的分布式一体化方式,采用管理计算节点+存储节点的部署方式;HCP硬件配置灵活多样,整体存储节点通常能扩展至400PB;HCP支持多站点部署的同时,可以实现站点间数据传输和容灾备份;数据保护方面采用20D+6P的纠删码技术,能够提供77%的容量利用率;具备多版本、重复对象删除和压缩功能;协议方面支持Swift和S3两种方式;数据传输方面HCP提供万兆网络,可提供GB级别的处理能力;Gartner排名连续三年排名前三。

3:在金融行业中案例分析

倘若企业非结构化数据未来增长缓慢,目前的存储结构满足业务响应的需求,尚可以采用NAS存储。在传统的金融行业中,录音录像系统以及内容管理平台系统的推广带来了海量非结构化数据飞速增长,传统的NAS存储自身为树形结构,响应速度不能满足业务发展,此时,对象存储是企业的最佳选择。

新兴的互联网金融行业根据其业务特点,更多采用开源技术,通过自身技术人员的运维能力维护开源产品的运行,降低运维成本。在传统金融行业中,非结构化数据量巨大且继续呈现增长趋势,业务连续性需达到监管要求,企业普遍采用商业产品。传统金融行业非结构化文件达到亿级别,数据量普遍达到PB级别,有些企业未来会达到EB级别,采用商业产品才可以满足企业需求;商业产品拥有完整的技术支撑,提升企业的业务连续性和数据可靠性。良好的UI操作界面也是商业产品被企业接受的另一优点。成熟的体系架构、灵活的容量拓展、纠删技术的运用,是商业对象存储未来占据更多市场的坚实基础,非结构化数据性能问题随着对象存储的推广找到了合适的解决办法。

企业应根据业务特点进行合理的存储使用规划。传统的数据库型结构化数据采用SAN存储,达到业务的快速响应;少量树形结构的数据可采用NAS存储,达到业务数据共享的目标;海量非机构化数据采用对象存储,由于对象存储使用S3或Swift访问协议,传统的业务系统需要调整业务访问端口,企业可采用“两步走”的步骤,对于新开发的业务系统,对非结构化数据的访问直接采用对象存储的方式,对于存量的业务系统逐渐调整访问端口。合理的存储使用规划一定会为企业带来长久的收益,存储性能得到了提升,业务响应时间得到了有效的提高,对企业的服务水平和口碑具有良好的推动作用。合理的存储规划为企业降低了存储开销成本,根据业务特点和需求使用合理的存储,避免了SAN存储的浪费,同时采用对象存储对企业的科技创新开辟了崭新的道路。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

21

添加新评论5 条评论

#chengzuqiao系统架构师, 江西省农村信用社
2018-12-17 21:35
仔细阅读了下本文章,整体结构不错,由对象存储概念引申到对象存储优劣势,以及对象存储选型考虑,最后抛出了典型案例,但都不够深入,对大家了解对象存储发展还是不错的文章,望作者后期针对某一块谈的更深入一点
#Amol1984系统工程师, YuSYS
2018-12-17 17:38
阅读这篇文章,学习了一遍对象存储知识,非常感谢作者的分享。读后个人认为对象存储的应用领域主要分三类:1金融领域~业务连续性要求高;2.互联网领域~数据量级大;3.行业应用。 鉴于以上,那么明晰,金融领域不差钱,要求高可靠性,商用产品优势大。互联网领域企业化运作同时锻炼培养了一批技术牛人,采用开源方式比较有优势。行业领域的话商用与开源产品共存全看销售与甲方那个唯一一个什么都要干的计算机管理员。 技术层面,我想对象存储也是建立在传统硬件之上的一种软件应用。
#saric系统分析师, FNT
2018-12-17 15:17
文章绝大部分还是比较认可。但本人认为Ceph“不能完美的进行跨站点部署”这点值得探讨, 只要有足够带宽支持是可以实现的,商用软件也存在这一问题,而且商用闭源产品如EMC的 Elastic Cloud Storage(ECS)需要借助网关或前端设备才能基于传统文件协议进行访问。IBM Cloud Object Storage支持本机NFS,但需要加载第三方产品来进行CIFS/SMB访问。因此,我认为Ceph开源产品是今后统一对象存储的方向。
#lzg21st存储工程师, brcb
2018-12-14 13:46
文章整体写的不错,层次清晰,有理有据!首先谈了下分布式对象存储较之传统集中式的san和nas存储在处理海量非结构化数据方面的优势,接下来,从开源和商业两个阵营剖析了对象存储在市场上的格局。
#wuwenpin软件开发工程师, 南京
2018-11-27 20:04
谢谢分享啦
Ctrl+Enter 发表

本文隶属于专栏

最佳实践
不同的领域,都有先行者,实践者,用他们的最佳实践来加速更多企业的建设项目落地。
相关推广
  • 某银行生产和灾备 Power 云化实践
    本文以某银行生产和灾备Power 云化实践案例为出发点,从起步、进阶、云化、融合、期待等五个 Power 云化过程展开详细介绍,旨在帮助企业深入了解 Power 资源池和云化过程,并结合 Power 服务器和虚拟化技术特性,丰富 Power 私有云平台的功能。
  • 关于TWT  使用指南  社区专家合作  厂商入驻社区  企业招聘  投诉建议  版权与免责声明  联系我们
    © 2019  talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30