非结构化数据的存储及解决思路?

海量非结构化数据存储优化方面,使用对象存储技术,还是分布式存储技术,亦或是分布式对象存储?对于PB级的非结构化数据存储,目前有哪些存储厂家的设备能够提供对应的应用场景?在非结构化数据的备份上,有什么可行的解决方案

参与20

6同行回答

匿名用户匿名用户
非结构化数据,主要是两类存储:NAS存储、对象存储。早期主要是传统NAS存储用来存储非结构化数据,但传统NAS存储使用块格式化成ext4、xfs等文件系统,在共享成cifs、nfs、ftp协议后,不能存储太多数据,单个文件系统存储上亿文件后性能下降严重。现在国内海量非结构化存储都使用分布...显示全部

非结构化数据,主要是两类存储:NAS存储、对象存储。
早期主要是传统NAS存储用来存储非结构化数据,但传统NAS存储使用块格式化成ext4、xfs等文件系统,在共享成cifs、nfs、ftp协议后,不能存储太多数据,单个文件系统存储上亿文件后性能下降严重。
现在国内海量非结构化存储都使用分布式存储承接,文件和对象都可以承接百亿~千亿级别的非结构化数据,且性能基本不下降。国内主要是华为、XSKY、华三、浪潮
非结构化存储备份的话,国内有鼎甲、爱数,国外的veeam、NBU都可以做。

收起
软件开发 · 2022-11-09
浏览1386
lzg21stlzg21st存储工程师brcb
提到海量非结构化数据,对象存储的价值还是比较明显的。对象存储一般的形态都是分布式的架构,易于横向扩展。对象存储技术大的分类,可以分为基于开源软件的对象存储技术如ceph系或者是商用的产品,国外的hds的hcp,emc的ecs,国内的华为等都有相应的解决方案。如果是海量的非结构化...显示全部

提到海量非结构化数据,对象存储的价值还是比较明显的。对象存储一般的形态都是分布式的架构,易于横向扩展。对象存储技术大的分类,可以分为基于开源软件的对象存储技术如ceph系或者是商用的产品,国外的hds的hcp,emc的ecs,国内的华为等都有相应的解决方案。如果是海量的非结构化数据,备份起来确实是个难题,一般都是采用存储侧的在线(异步)复制技术。

收起
银行 · 2022-11-09
浏览1238
奔跑的蜗牛奔跑的蜗牛高级软件开发工程师武汉家事易农业科技有限公司
1.文件存取统一接口,封装了对数据中心所以非结构化数据的读写操作接口。 2.Hadoop HDFS 负责对大文件的存储,以 HDFS:为文件协议标准。显示全部

1.文件存取统一接口,封装了对数据中心所以非结构化数据的读写操作接口。
2.Hadoop HDFS 负责对大文件的存储,以 HDFS:为文件协议标准。

收起
软件开发 · 2022-11-09
浏览1220
SandStone杉岩数据SandStone杉岩数据中国对象存储市场领导厂商深圳市杉岩数据技术有限公司
非结构化数据往往结构不规则或不完整、缺乏预定义数据模型、格式多种多样,我们常见的图片、音频、视频、文档等,都属于非结构化数据,其往往呈现出数量多、类型多样等特点。 面对海量非结构化数据,尤其是在小文件场景下,传统NAS在容量扩展性、性能、文件检索和管理便捷性上都存...显示全部

非结构化数据往往结构不规则或不完整、缺乏预定义数据模型、格式多种多样,我们常见的图片、音频、视频、文档等,都属于非结构化数据,其往往呈现出数量多、类型多样等特点。 面对海量非结构化数据,尤其是在小文件场景下,传统NAS在容量扩展性、性能、文件检索和管理便捷性上都存在诸多问题。
文件存储通过将数据划分为类别、目录和文件夹来获取非结构化数据并将其结构化,由此用户可以快速轻松地查询搜索。因此,如果组织要处理的非结构化数据量有限,文件存储是最佳选择。
而一旦文件数达到数千万级别,目录树越建越深,容易造成性能和查询效率急剧下降,文件管理困难,扩容和运维也会变得繁琐,严重影响业务效率。
对于对象存储来说,应对爆炸性增长的非结构化数据简直是小菜一碟。
1.超大容量和强扩展性
采用分布式架构,基于通用服务器,部署对象存储软件,可以灵活添加节点实现按需在线扩展,支持EB级存储容量,不影响生产业务。
2.海量小文件存储场景性能优异
通过更扁平的Key直接访问后端的对象,通过小文件合并、元数据独立扩展、元数据有序优化等技术,提升海量小文件业务场景性能。
3.天然拥抱云和互联网
基于标准的S3或OSS接口,可以在私有云环境与公有云存储之间进行数据流动;支持跨互联网访问,无需OS挂载更轻量,对于人工智能、机器学习、物联网、云原生等新兴应用友好。
4.数据安全可靠
通过副本、纠删码、亚节点纠删等数据保护机制,WORM防篡改、桶内数据加密等功能,以及同城双活、异地容灾能力,全面保障数据安全。
5.赋能数据价值挖掘
对象存储可以通过与智能数据处理软件结合,实现对非结构化数据进行多维度标签化和结构化处理,实现快速标签检索;并将图片转码、视频抽帧、OCR识别等数据处理能力下沉到存储系统内部,提升数据管理能力,降低成本并简化业务流程。

收起
软件开发 · 2023-11-08
浏览351
各种存储分类不一而足,业界通用的分类是Enterprise Storage, Software Define Storage;而国内由于厂商不愿意做软硬解耦的销售,逐步衍生出企业存储/集中式存储和分布式存储;本质上分布式存储就是业界定义的软件定义存储,可以支持块、文件、对象,而其中对象存储是分布式最为广泛...显示全部

各种存储分类不一而足,业界通用的分类是Enterprise Storage, Software Define Storage;而国内由于厂商不愿意做软硬解耦的销售,逐步衍生出企业存储/集中式存储和分布式存储;本质上分布式存储就是业界定义的软件定义存储,可以支持块、文件、对象,而其中对象存储是分布式最为广泛的应用场景,从全球意义看,公有云、私有云,对象存储是分布式存储最具规模的部署场景,没有之一。
PB级存储空间对于当前的业界技术并不算大规模,企业NAS完全可以解决,从实践来看,10PB以上采用对象更为合理,厂商有很多,各个主流存储厂商均提供对象存储,部分初创企业也有自己的特色,比如XSKY;
对象的一大难点就是备份,规模大了之后很难有一个完整的合规的备份方案,更多是采用容灾体系;部分金融客户因为对象不具备合规的备份方案,进而持续选择企业NAS,因为企业NAS是有标准完整合规的备份体系。

收起
互联网服务 · 2022-11-10
浏览1184
lych370lych370联盟成员系统运维工程师个人
既然文件存储和对象存储的都适用于海量非结构化数据存储,那么用户什么时候选择文件存储,什么时候选择对象存储呢?有两个主要指标,一看数据规模,二看应用场景。01数据规模文件存储通过将数据划分为类别、目录和文件夹来获取非结构化数据并将其结构化,由此用户可以快速轻松地查询...显示全部

既然文件存储和对象存储的都适用于海量非结构化数据存储,那么用户什么时候选择文件存储,什么时候选择对象存储呢?

有两个主要指标,一看数据规模,二看应用场景。

01数据规模

文件存储通过将数据划分为类别、目录和文件夹来获取非结构化数据并将其结构化,由此用户可以快速轻松地查询搜索。

但是文件存储中,一旦文件数达到数千万级别,目录树越建越深,就会造成性能瓶颈,不仅查询效率严重下降,而且超多超大文件管理困难,严重影响业务效率。

对于几乎无形中可以添加更多空间、弹性扩容的对象存储来说,爆炸性膨胀的非结构化数据存储简直是小菜一碟。

因此,如果组织要处理的非结构化数据量有限,文件存储是最佳选择。若组织需要处理大量数据,那么选择对象存储是更明智的决定

02应用场景

对象存储之所以成为近些年的存储顶流,除了其容量无限制、强扩展的特性,还在于其天然拥抱云和互联网的特质。

在对象存储中,用户若想修改文件,只能先下载、修改,再将修改后的文件上传,这一特性决定了它非常适合读取多写入少的场景——比如网站视频播放、网盘应用、机器学习的数据训练、物联网数据传输、云原生等,对于这些现代化应用,对象存储大有可为。

此外,对象存储也被称为云存储,如今已成为云服务公司的一项基础业务,全球各知名厂商纷纷推出基于对象存储的云存储服务,凭借其事实上的语言——AWS S3 API,对象存储可以在内部部署/私有云环境与公有云存储之间进行无缝访问和移动。

因此,对于人工智能、物联网、云原生等新兴应用,对象存储将是不错的选择。

收起
银行 · 2022-11-10
浏览1177

提问者

吴室长
员工安徽省农村信用社联合社
擅长领域: 信创服务器灾备

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2022-11-08
  • 关注会员:7 人
  • 问题浏览:3029
  • 最近回答:2023-11-08
  • X社区推广