如何对存储做更深度的监控优化来赋能我们快速的故障定位?

现有的存储监控都是基于物理硬件以及链路层的监控,如何对存储做更深度的监控优化来赋能我们快速的故障定位?

参与21

7同行回答

首先,传统的存储硬件故障告警是必要的,没有必要重复发明轮子,即使再次发明,还是要参考原装的轮子然后,要用自己习惯的工具,不限于商用还是开源。用的好,顺手,才能有后续的深入最后,如果自己能做一点小工具。满足日常监控和告警,就比较理想。不要一开始就想让一个系统满足所有的要求...显示全部

首先,传统的存储硬件故障告警是必要的,没有必要重复发明轮子,即使再次发明,还是要参考原装的轮子
然后,要用自己习惯的工具,不限于商用还是开源。用的好,顺手,才能有后续的深入
最后,如果自己能做一点小工具。满足日常监控和告警,就比较理想。

不要一开始就想让一个系统满足所有的要求,系统大了就难转动,无法按自己的需求更改。
要解决自己遇到的问题,先看商用,再看开源,然后看自己的代码能力。

根因,始终是难题。
可以先将日常监控分为故障告警和使用告警。后者监控类似100% CPU使用率,超过200ms延迟,光衰严重降低等情况。
故障告警,厂商解决。
使用告警,自己解决。

收起
IT其它 · 2022-08-30
浏览1146

提问者

luanxs
存储工程师某证券行业
擅长领域: 存储存储选型服务器

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2022-08-25
  • 关注会员:8 人
  • 问题浏览:2525
  • 最近回答:2022-09-19
  • X社区推广