分布式存储使用过程稳定性和可靠性如何保障?

分布式存储和集中式存储相比,有很强的价格优势,在实际使用过程中,依然需要通过容量管理的方式对存储成本进行评估,存储成本在分布式存储体系中,更多的以集群使用率进行呈现。在目前开源的分布式存储产品中,绝大多数采取伪随机算法的方式进行数据平衡,比较典型的是Ceph,因此导致分布式存储在使用一定时间后,出现集群可用率造成较大的误差。分布式存储架构师和工程师需要通过相应的技术手段监控分布式存储的数据使用情况和数据平衡状态,其中包括灾难性数据迁移和数据分布阈值,保障分布式存储在使用过程的稳定性和可靠性。

参与10

3同行回答

顾黄亮顾黄亮课题专家组技术总监畅销书作者
从根本上说,这是数据均衡的问题,在Ceph的技术体系中,尤为突出。数据均衡是保证分布式存储的每个盘的数据相对分布均衡,依靠自身的数据均衡算法,确保数据分布能够 遵循每个Pool的Rule-Set规则,同时又要保证每个Pool对应的PG较为合理的分布在每个OSD中,在Ceph的数据均衡体系中,每个...显示全部

从根本上说,这是数据均衡的问题,在Ceph的技术体系中,尤为突出。
数据均衡是保证分布式存储的每个盘的数据相对分布均衡,依靠自身的数据均衡算法,确保数据分布能够 遵循每个Pool的Rule-Set规则,同时又要保证每个Pool对应的PG较为合理的分布在每个OSD中,在Ceph的数据均衡体系中,每个Pool的作用是不一样的,有的存放元数据,有的存放业务数据,因此容易造成数据分布存在不均衡性。
在Ceph新版本中,已经实现了数据分布的智能管理,在很多商业分布式存储产品,也具备类似的功能,通过相关的计算模型,根据数据的汇入进行实时的迭代计算,能够对数据分布进行最优分布管理,据实际统计,数据分布的误差基本可以控制在2%之内。

收起
银行 · 2021-05-19
浏览1772

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2021-05-19
  • 关注会员:4 人
  • 问题浏览:3324
  • 最近回答:2021-05-27
  • X社区推广