海量数据按照生命周期,迁移到离线存储,越来越多的海量文件造成metadata越来越多,会造成数据查询越来越慢,就像是打开成千上万个文件的文件夹,可能读取非常消耗时间,在数据的管理过程中,对于这类问题有什么解决方案呢?
收起这个应该就是初期设计和定位的问题了。
首先,先确定对数据和存储的分层基于一个什么样的维度来划分。根据你的实际情况,如果数据访问量或访问频率依然非常大,显然是不太适合放到离线存储的。
其次,是对这些文件的分类和规划,对常见的访问方式进行分类,然后再看能否已经访问方式对数据进行对应的分类,来提示访问速度。原理类似数据库的表分区。