大家在超融合产品选型中如何测试节点故障后的恢复效率问题?

超融合选型测试时,其中一个关键点就是节点或硬盘故障后的恢复效果,也就是数据同步的效果,这点各位是如何测试的,目前哪些厂商在这方面的性能最好。

3回答

asdf-asdfasdf-asdf  研究学者 , cloudstone
zhuhaiqiang挚爱咖啡泊涯等赞同了此回答
超融合 , 磁盘故障测试 直接下电硬盘, raid重组 速度测试 对vm 的io影响进行评估 性能最好的要看 硬件品质, 显示全部

超融合 , 磁盘故障测试 直接下电硬盘, raid重组 速度测试 对vm 的io影响进行评估

性能最好的要看 硬件品质,

收起
 2019-08-02
浏览281
aixchina 邀答
钟锦锌钟锦锌  产品经理 , SmartX超融合
wokankankan赞同了此回答
关于节点故障或者硬盘故障触发的数据恢复效率的测试主要分三种场景: 插拔 HDD 插拔 SSD 节点断电 测试考量的关键指标有: 数据恢复过程中对整个集群的性能影响(这个非常重要,数据恢复如果过分影响正在运行的业务是无法接受的。) 数据恢复量(由于技术差异原因,同样的场景,数据...显示全部

关于节点故障或者硬盘故障触发的数据恢复效率的测试主要分三种场景:

  1. 插拔 HDD
  2. 插拔 SSD
  3. 节点断电

测试考量的关键指标有:

  1. 数据恢复过程中对整个集群的性能影响(这个非常重要,数据恢复如果过分影响正在运行的业务是无法接受的。)
  2. 数据恢复量(由于技术差异原因,同样的场景,数据恢复量可能不一致)
  3. 数据恢复速度(涉及数据恢复效率)
  4. 数据恢复触发条件

不同测试场景的实际意义:

插拔 HDD (机械硬盘)测试:

主要目的是模拟硬盘故障的状况下,系统执行数据恢复的效率。

  • 测试中需要留意副本策略(或者是 RAID 级别,纠删码级别等),例如 2 副本和 3 副本所允许故障的硬盘数量不一致,恢复速度也不尽相同。
  • 测试中需要留意插拔硬盘的容量大小以及已写入数据量大小,观察拔出硬盘触发数据恢复量是全盘容量还是已写入数据量的恢复,这会直接影响到恢复效率。
  • 测试中需要记录恢复时间,恢复数据量,计算出恢复速度;以及需要验证节点数量对数据恢复速度的影响(有些系统节点可以支持并发恢复,节点数多恢复效率更高;而有些系统可能不受节点数量影响)
  • 触发数据恢复是否要专门的热备硬盘(使用空间的效率)
  • 记录恢复过程中系统性能下降比例

插拔 SSD (固态硬盘)测试:

主要目的是模拟 SSD 故障的状况下,系统执行数据恢复的效率。由于 SSD 在不同的系统中有不同的用途,例如是作为缓存空间、容量空间,甚至是操作系统空间或者元数据存放空间等等,相比 HDD 来说更复杂,故障的影响可能更大,因此单独列出进行测试。

  • 测试中需要验证 SSD 故障是否是单点故障
  • 验证数据恢复量与 SSD 硬盘容量之间的关系(某些系统有磁盘组概念,单块 SSD 故障会引起整个磁盘组数据恢复)
  • 恢复速度
  • 记录恢复过程中系统性能下降比例

节点断电测试:

主要目的是模拟单个服务器节点故障的状况下,系统执行数据恢复的效率

  • 节点失效到触发数据恢复需要的时间(考虑系统是否足够敏感)
  • 节点长时间失效,数据恢复量(模拟需要长时间修复机器宕机问题)
  • 节点短时间重新上线,数据恢复量(模拟重启解决机器宕机问题)
  • 恢复速度(节点数量是否影响恢复速度)
收起
 2019-09-04
浏览146
aixchina 邀答
捕风者捕风者  系统架构师 , HoneycombData Inc.
要考虑恢复效率,以及恢复本身是否可控,会不会对整体性能造成影响需要厂商提供相对透明的 恢复细节和进度显示全部

要考虑恢复效率,以及恢复本身是否可控,会不会对整体性能造成影响
需要厂商提供相对透明的 恢复细节和进度

收起
 2019-08-15
浏览204

提问者

午夜幽魂系统运维工程师, 计算机有限公司

问题状态

  • 发布时间:2019-08-02
  • 关注会员:4 人
  • 问题浏览:1048
  • 最近回答:2019-09-04
  • 关于TWT  使用指南  社区专家合作  厂商入驻社区  企业招聘  投诉建议  版权与免责声明  联系我们
    © 2019  talkwithtrend — talk with trend,talk with technologist 京ICP备09031017号-30