分布式存储在实际生产中,需在哪些方面增加监控?

目前分布式存储的界面告警还无法像传统san存储那样将各个硬件告警推送出来,服务器的管理口硬件容错较高,很多情况服务器管理口并未告警,但上层分布式存储软件已经感知异常。在实际生产中应还需在哪些方面增加监控

参与4

1同行回答

zhongshizhongshi  产品总监 , XSKY
产品级别的分布式存储,对于基础硬件层面告警已经没什么问题了,如果说这方面监控不到位,只能说产品化能力不好;个人觉得最难监控的部分其实不是硬件本身,而是网络层面,因为分布式架构对于网络的要求非常高,所以初期分布式存储多是建议专有的集群内部网络,一方面是避免流量干扰,另一...显示全部

产品级别的分布式存储,对于基础硬件层面告警已经没什么问题了,如果说这方面监控不到位,只能说产品化能力不好;个人觉得最难监控的部分其实不是硬件本身,而是网络层面,因为分布式架构对于网络的要求非常高,所以初期分布式存储多是建议专有的集群内部网络,一方面是避免流量干扰,另一方面是便于故障排查,近几年随着以太网络技术的更新迭代,更多的分布式存储采用混合组网的使用多平面的方式在构建,这样优化带宽,整合资源,但是对于故障判断增加了很多不确定性,所以如果有自动网络情况判断机制,对于分布式存储的运维是非常有帮助的;另外一个是随着磁盘容量的增大,一次磁盘损坏恢复的时间越来越长,是否能够通过AI技术对磁盘故障类型进行学习,提前发现可能出现的磁盘问题;再有就是磁盘静默错误的修复能力,避免导致数据丢失

收起
软件开发 · 2021-11-08
浏览1063

提问者

leiyu567567
系统工程师中国民生银行信用卡中心
擅长领域: 服务器AIXUnix

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2021-11-05
  • 关注会员:2 人
  • 问题浏览:1937
  • 最近回答:2021-11-08
  • X社区推广