系统集成数据备份制造非结构化数据存储

现有系统中有150G容量的非结构化数据，但备份和管理都很慢，请问有什么办法来管理和优化吗？

我们现在有一套系统中有很多非结构化的数据，都是非常细小的文档。由自己开发的公文管理系统中产生。公文没经过一道批复。就生成一个新的文档。现在的量还，没有达到海量，但150G左右的容量，文件数非常多。对这些文件进行备份，管理的时候都很慢。对于这种情况。有什么解决办法来管理和优化吗

关注4

参与13

3同行回答
全部行业
全部行业 银行 系统集成 互联网服务
|
按赞同排序
按时间排序

zp_ccc高级技术主管国内某金融科技公司

海量数据不应该用传统备份和恢复方法。传统方法不仅仅备份耗时太长，需要恢复的时间也难以接受，很多情况下即使有备份，恢复的成本也很高，不适合实际应用。
建议通过专门针对海量数据进行数据归档的产品来进行数据保护。

收起

互联网服务 · 2017-07-02

查看赞同的人

qq373793057

系统工程师某银行

海量小文件的备份和管理处理起来确实比较麻烦，目前针对非结构化数据所用的文件系统、分布式文件系统和对象存储系统，在数据布局、条带设计、缓存管理等实现策略上都是侧重大文件的。
建议利用文件系统的扩展接口将系统大量的小文件合并成大文件后再导入文件系统集群中。小文件单独存储会形成外部和内部碎片，而合并存储后存储碎片会大大降低，能极大提高了小文件存储效率。尽量将可能连续访问的小文件在大文件中进行连续存储，这直接降低了磁盘上随机I/O比率。

收起

银行 · 2017-06-28

查看赞同的人

pysx0503
请问你说的这种小文件合并是指怎样的概念呢？。我现在管理的是海量的WORD文档。比如一个审批流程，在一个文件上会由很多人批阅，就会产生很多个有小改动的文件，但是又没办法把文件合并或者归档。所以才产生了很多的文件。
2017-06-28
赞同1
评论
qq373793057回复 pysx0503
之前做过的一个小文件合并，底层架构采用的是Hadoop，小文件合并是采用Hadoop支持的Sequence File文件格式。在存储结构上，Sequence File主要由一个Header后跟多条Record组成。每个Record由一系列的二进制key/value组成。我们的文件合并实现中，将key作为小文件名，value作为文件内容。合并文件后Hadoop 集群中写入的过程主要通过Hadoop提供的API完成。
2017-06-28
赞同1
评论