存算分离的本质是计算和存储分离,一份数据存储,支持多个计算引擎(如:hadoop、mpp等),提升存储效率。是否有把“对象存储”作为“存算分离”的底层存储的案例?
收起可以运用在hadoop的大数据分析场景,hadoop的存储集群采用1个name node+ 多个data node的存储架构,name node单独存放元数据,存在性能瓶颈。利用对象存储适配hadoop存算分离,有以下几大优势
(1) hdfs目前生产使用只有副本,替换对象存储可以支持EC纠删,大幅节约硬件投入
(2) 只有桶和对象两层数据存储架构,加上原生的数据检索引擎,可以实现高效的数据检索
(3) 区别于备份方案,数据永久实时在线,随时提供数据读写
(4)原生支持Hadoop HDFS大数据分析平台,对接HDFS,数据统一存储和调取
(5)对象存储元数据采用分布式架构,每个节点都存放有元数据,并发响应读写需求,取代单个HDFS的单个name node的性能瓶颈和单点故障
(6)对象存储可支持百亿文件的存储,完美适配大数据的海量文件的存储需求
(7)采用XSpeed技术实现小文件聚合下刷功能,化随机写为顺序写,加速对于小文件的写入性能;by pass技术实现大文件直接下刷至HDD,充分发挥HDD的高吞吐的优势
(8)提供数据在线压缩和重删,提升数据的存储效率,为客户节约采购成本