从根本上说,这是数据均衡的问题,在Ceph的技术体系中,尤为突出。
数据均衡是保证分布式存储的每个盘的数据相对分布均衡,依靠自身的数据均衡算法,确保数据分布能够 遵循每个Pool的Rule-Set规则,同时又要保证每个Pool对应的PG较为合理的分布在每个OSD中,在Ceph的数据均衡体系中,每个Pool的作用是不一样的,有的存放元数据,有的存放业务数据,因此容易造成数据分布存在不均衡性。
在Ceph新版本中,已经实现了数据分布的智能管理,在很多商业分布式存储产品,也具备类似的功能,通过相关的计算模型,根据数据的汇入进行实时的迭代计算,能够对数据分布进行最优分布管理,据实际统计,数据分布的误差基本可以控制在2%之内。