从分布式存储在金融领域的实际使用过程中,不定期会有常规的运维操作,比如题主所提到的大规模集群的扩容和磁盘更换,IO争抢也是较为常见的问题之一。
抛砖引玉,笔者所遇到的大规模集群中,单个集群超过1K的存储节点,按照正常的概率,每个月会有数量不等的磁盘损坏,每个季度会存在一次集中换盘,这些操作都会通过数据迁移、数据负载和数据平衡的方式进行数据恢复,IO争抢大都发生在这个场景, 高密集IO计算的争抢更多的取决于数据分布算法的合理性。
通常情况下,抛开分布式存储自身的算法,更多的采取时间策略+流量策略的方式规避IO争抢,比如在业务高峰期避开磁盘变更窗口,而流量策略更多的是基于数据流量恢复速率阈值匹配业务场景,最终实现 在不影响业务IO的情况下,快速完成数据迁移恢复。