告警监控重点考虑2个内容:数值、持续性。
首选,要有基线。基线的建立依赖于历史数据和对应用的理解。
其次,要有业务目标,业务目标到IT目标的映射,决定了IT目标的底线是什么。
最后,要有结合自身特点的实践。
比如,
我们通常会建议客户记录历史的峰值,如果高于历史峰值,我们先警告;如果高于历史峰值30%,系统做通知告警;如果再高,可能就要提前引入故障预警流程了。
持续性问题,偶然超出历史峰值,要记录,不影响应用的,可以事后分析。持续超出历史峰值,比如持续了5分钟,要告警,要重点监控,要立刻分析原因。