如何有效和智能的控制并恢复IO,减少因IO问题导致数据批量计算的影响,是分布式存储考虑和解决的问题?

金融场景具有高密集IO的特性,尤其在数据批量计算方面,分布式存储在频繁数据分布和迁移过程中通常会带来IO争抢的问题,在大规模集群遇到扩容或硬盘替换时尤为明显,给分布式存储在金融领域的深入使用带来了一定的风险。如何有效和智能的控制并恢复IO,减少因IO问题导致数据批量计...显示全部

金融场景具有高密集IO的特性,尤其在数据批量计算方面,分布式存储在频繁数据分布和迁移过程中通常会带来IO争抢的问题,在大规模集群遇到扩容或硬盘替换时尤为明显,给分布式存储在金融领域的深入使用带来了一定的风险。如何有效和智能的控制并恢复IO,减少因IO问题导致数据批量计算的影响,是分布式存储架构师必须要考虑和解决的问题?

收起
参与10

查看其它 2 个回答s6dong的回答

s6dongs6dongit技术咨询顾问东软集团

分布式存储在发生OSD变化的时候确实会导致IO波动,特别是在扩容或升级时,会做自身的的数据均衡,发生大规模的数据迁移造成IO数据影响。所以为了避免了类似情况发生,需要考虑业务的繁忙时间段,避免在高峰期进行磁盘或节点扩容等操作。
除了避免时间固定时间窗口以外,在扩容策略上,还要避免一次大规模增加OSD数量。比如每次只扩容一个OSD或者一个节点(按存储隔离策略),虽然工作量会增加一些,但是不会造成大规模的持续性的影响。
在由于故障导致数据恢复时,可以限定数据恢复的流量策略,例如将恢复流量占用IO利用率阈值小于30~50%来保证生产IO的性能,这些都是避免IO争用的手段和策略。

互联网服务 · 2021-05-27
浏览1501

回答者

s6dong
s6dong1729
it技术咨询顾问东软集团
擅长领域: 存储服务器灾备

s6dong 最近回答过的问题

回答状态

  • 发布时间:2021-05-27
  • 关注会员:5 人
  • 回答浏览:1501
  • X社区推广