如何对存储做更深度的监控优化来赋能我们快速的故障定位?

现有的存储监控都是基于物理硬件以及链路层的监控,如何对存储做更深度的监控优化来赋能我们快速的故障定位?显示全部

现有的存储监控都是基于物理硬件以及链路层的监控,如何对存储做更深度的监控优化来赋能我们快速的故障定位?

收起
参与21

查看其它 6 个回答qixiaoding的回答

首先,传统的存储硬件故障告警是必要的,没有必要重复发明轮子,即使再次发明,还是要参考原装的轮子
然后,要用自己习惯的工具,不限于商用还是开源。用的好,顺手,才能有后续的深入
最后,如果自己能做一点小工具。满足日常监控和告警,就比较理想。

不要一开始就想让一个系统满足所有的要求,系统大了就难转动,无法按自己的需求更改。
要解决自己遇到的问题,先看商用,再看开源,然后看自己的代码能力。

根因,始终是难题。
可以先将日常监控分为故障告警和使用告警。后者监控类似100% CPU使用率,超过200ms延迟,光衰严重降低等情况。
故障告警,厂商解决。
使用告警,自己解决。

IT其它 · 2022-08-30
浏览1068

回答者

qixiaoding 最近回答过的问题

回答状态

  • 发布时间:2022-08-30
  • 关注会员:8 人
  • 回答浏览:1068
  • X社区推广