对于一般的制造企业,非结构化数据的总体大概就几TB或十几TB,但是文件数量很多,主要以小文件为主。在海量小文件的检索等方面,非常不方便、对于这种情况,是否有什么合适的解决方案推荐?
我们选择的解决方案是NetAPP的NAS存储,提供非结构化数据的集中管理,去重,提供高并发能力。
当然检索的技术,各个厂商不同,但是他们的类型是非结构化的,所以可以集中考虑非结构化存储。
联测优特半导体(东莞)有限公司是全球半导体封装测试行业的领军企业。过去生产制程的图片数据存储在质检服务器的本地硬盘中,数据是分散管理模式。杉岩MOS海量对象存储系统内置智能数据处理引擎,将生产机台生成的BMP格式文件,数天后转换为JPG格式以节省存储空间,高性能实时转码影像数据成本大大降低,处理后的存储容量需求下降为原始需求的20%。
同时,存储系统自动给图片打上产线号、工序号、芯片ID等标签,并建立索引,提供数据的标签管理和检索服务,用户可按需进行可视化检索,百亿级文件秒级检索。
杉岩数据专注于软件定义存储领域,截至目前已累计服务800+行业客户,知名客户如 海通证券、广发证券、中国银联、联测优特半导体、信维通信、中国广核集团、中移物联网有限公司、中国南方电网深圳供电局等,累计交付存储容量超过4500PB,是软件定义存储领域的头部企业。
收起在存储和查询效率角度看来,采用文件存储这种传统的结构化数据方式肯定不能满足海量小文件管理的需求了,针对这类文件数据的存储,上对象存储是最好的解决方案。
目前市场上主要有的对象存储分成公有云存储和私有云存储,针对公有云存储的话,文件的检索依赖于公有云本身的检索功能,检索效率相对还是会有瓶颈。如采用私有云方案,目前业内比较泛用的是将对象存储元数据单独保存在index索引存储池中,再用ElasticSearch实现快速的元数据查询。
在私有云方面,开源方案主要是Ceph,对软硬件支持较多且无绑定,未来可扩展性也好。