首先,传统的存储硬件故障告警是必要的,没有必要重复发明轮子,即使再次发明,还是要参考原装的轮子
然后,要用自己习惯的工具,不限于商用还是开源。用的好,顺手,才能有后续的深入
最后,如果自己能做一点小工具。满足日常监控和告警,就比较理想。
不要一开始就想让一个系统满足所有的要求,系统大了就难转动,无法按自己的需求更改。
要解决自己遇到的问题,先看商用,再看开源,然后看自己的代码能力。
根因,始终是难题。
可以先将日常监控分为故障告警和使用告警。后者监控类似100% CPU使用率,超过200ms延迟,光衰严重降低等情况。
故障告警,厂商解决。
使用告警,自己解决。