海量非结构化数据存储优化方面,使用对象存储技术,还是分布式存储技术,亦或是分布式对象存储?对于PB级的非结构化数据存储,目前有哪些存储厂家的设备能够提供对应的应用场景?在非结构化数据的备份上,有什么可行的解决方案
非结构化数据,主要是两类存储:NAS存储、对象存储。
早期主要是传统NAS存储用来存储非结构化数据,但传统NAS存储使用块格式化成ext4、xfs等文件系统,在共享成cifs、nfs、ftp协议后,不能存储太多数据,单个文件系统存储上亿文件后性能下降严重。
现在国内海量非结构化存储都使用分布式存储承接,文件和对象都可以承接百亿~千亿级别的非结构化数据,且性能基本不下降。国内主要是华为、XSKY、华三、浪潮
非结构化存储备份的话,国内有鼎甲、爱数,国外的veeam、NBU都可以做。
提到海量非结构化数据,对象存储的价值还是比较明显的。对象存储一般的形态都是分布式的架构,易于横向扩展。对象存储技术大的分类,可以分为基于开源软件的对象存储技术如ceph系或者是商用的产品,国外的hds的hcp,emc的ecs,国内的华为等都有相应的解决方案。如果是海量的非结构化数据,备份起来确实是个难题,一般都是采用存储侧的在线(异步)复制技术。
收起非结构化数据往往结构不规则或不完整、缺乏预定义数据模型、格式多种多样,我们常见的图片、音频、视频、文档等,都属于非结构化数据,其往往呈现出数量多、类型多样等特点。 面对海量非结构化数据,尤其是在小文件场景下,传统NAS在容量扩展性、性能、文件检索和管理便捷性上都存在诸多问题。
文件存储通过将数据划分为类别、目录和文件夹来获取非结构化数据并将其结构化,由此用户可以快速轻松地查询搜索。因此,如果组织要处理的非结构化数据量有限,文件存储是最佳选择。
而一旦文件数达到数千万级别,目录树越建越深,容易造成性能和查询效率急剧下降,文件管理困难,扩容和运维也会变得繁琐,严重影响业务效率。
对于对象存储来说,应对爆炸性增长的非结构化数据简直是小菜一碟。
1.超大容量和强扩展性
采用分布式架构,基于通用服务器,部署对象存储软件,可以灵活添加节点实现按需在线扩展,支持EB级存储容量,不影响生产业务。
2.海量小文件存储场景性能优异
通过更扁平的Key直接访问后端的对象,通过小文件合并、元数据独立扩展、元数据有序优化等技术,提升海量小文件业务场景性能。
3.天然拥抱云和互联网
基于标准的S3或OSS接口,可以在私有云环境与公有云存储之间进行数据流动;支持跨互联网访问,无需OS挂载更轻量,对于人工智能、机器学习、物联网、云原生等新兴应用友好。
4.数据安全可靠
通过副本、纠删码、亚节点纠删等数据保护机制,WORM防篡改、桶内数据加密等功能,以及同城双活、异地容灾能力,全面保障数据安全。
5.赋能数据价值挖掘
对象存储可以通过与智能数据处理软件结合,实现对非结构化数据进行多维度标签化和结构化处理,实现快速标签检索;并将图片转码、视频抽帧、OCR识别等数据处理能力下沉到存储系统内部,提升数据管理能力,降低成本并简化业务流程。
各种存储分类不一而足,业界通用的分类是Enterprise Storage, Software Define Storage;而国内由于厂商不愿意做软硬解耦的销售,逐步衍生出企业存储/集中式存储和分布式存储;本质上分布式存储就是业界定义的软件定义存储,可以支持块、文件、对象,而其中对象存储是分布式最为广泛的应用场景,从全球意义看,公有云、私有云,对象存储是分布式存储最具规模的部署场景,没有之一。
PB级存储空间对于当前的业界技术并不算大规模,企业NAS完全可以解决,从实践来看,10PB以上采用对象更为合理,厂商有很多,各个主流存储厂商均提供对象存储,部分初创企业也有自己的特色,比如XSKY;
对象的一大难点就是备份,规模大了之后很难有一个完整的合规的备份方案,更多是采用容灾体系;部分金融客户因为对象不具备合规的备份方案,进而持续选择企业NAS,因为企业NAS是有标准完整合规的备份体系。
既然文件存储和对象存储的都适用于海量非结构化数据存储,那么用户什么时候选择文件存储,什么时候选择对象存储呢?
有两个主要指标,一看数据规模,二看应用场景。
01数据规模
文件存储通过将数据划分为类别、目录和文件夹来获取非结构化数据并将其结构化,由此用户可以快速轻松地查询搜索。
但是文件存储中,一旦文件数达到数千万级别,目录树越建越深,就会造成性能瓶颈,不仅查询效率严重下降,而且超多超大文件管理困难,严重影响业务效率。
对于几乎无形中可以添加更多空间、弹性扩容的对象存储来说,爆炸性膨胀的非结构化数据存储简直是小菜一碟。
因此,如果组织要处理的非结构化数据量有限,文件存储是最佳选择。若组织需要处理大量数据,那么选择对象存储是更明智的决定
02应用场景
对象存储之所以成为近些年的存储顶流,除了其容量无限制、强扩展的特性,还在于其天然拥抱云和互联网的特质。
在对象存储中,用户若想修改文件,只能先下载、修改,再将修改后的文件上传,这一特性决定了它非常适合读取多写入少的场景——比如网站视频播放、网盘应用、机器学习的数据训练、物联网数据传输、云原生等,对于这些现代化应用,对象存储大有可为。
此外,对象存储也被称为云存储,如今已成为云服务公司的一项基础业务,全球各知名厂商纷纷推出基于对象存储的云存储服务,凭借其事实上的语言——AWS S3 API,对象存储可以在内部部署/私有云环境与公有云存储之间进行无缝访问和移动。
因此,对于人工智能、物联网、云原生等新兴应用,对象存储将是不错的选择。
收起