我们现在有一套系统中有很多非结构化的数据,都是非常细小的文档。由自己开发的公文管理系统中产生。公文没经过一道批复。就生成一个新的文档。现在的量还,没有达到海量,但150G左右的容量,文件数非常多。对这些文件进行备份,管理的时候都很慢。对于这种情况。有什么解决办法来管理和优化吗
海量数据不应该用传统备份和恢复方法。传统方法不仅仅备份耗时太长,需要恢复的时间也难以接受,很多情况下即使有备份,恢复的成本也很高,不适合实际应用。
建议通过专门针对海量数据进行数据归档的产品来进行数据保护。
海量小文件的备份和管理处理起来确实比较麻烦,目前针对非结构化数据所用的文件系统、分布式文件系统和对象存储系统,在数据布局、条带设计、缓存管理等实现策略上都是侧重大文件的。
建议利用文件系统的扩展接口将系统大量的小文件合并成大文件后再导入文件系统集群中。小文件单独存储会形成外部和内部碎片,而合并存储后存储碎片会大大降低,能极大提高了小文件存储效率。尽量将可能连续访问的小文件在大文件中进行连续存储,这直接降低了磁盘上随机I/O比率。