分布式系统一般都是靠 分布式协议paxos算法或者Raft算法来保证集群的高可用性和可靠性,一般只要运维和监控的保障不会出现大问题。
数据不均衡:
但是咱们在运维的过程中,会发现ceph的crush算法,会导致数据倾斜, 集群中数据的不均衡。 这个时候就需要我们监控的及时告警,以及运维工具定期的做reblanace来保证集群数据的均衡性。
迁移IO争抢
在集群节点有变动的时候会导致集群均衡的迁移,那么集群内部的迁移IO肯定会影响客户端请求的IO,这个时候需要我们针对集群内部IO设置优先级以及控制好速率,优先来保证客户端IO的完成。