3个实践思路,供参考
1、响应时间是敏感的指标,如果单纯依据响应时间是否超出阈值就产生告警则可能导致毛刺场景下频繁的告警困扰运维,所以首先建议类似响应时间的告警要有样本点的概念,其次要判断响应时间类的指标是持续在恶化还是偶然升高,显然持续恶化的场景是应该更加关注的场景
2、可以通过同比、环比的思路,比对相同时间在周期内的响应时间表现,以此来判断是否属于异常
3、应该提供一定的异常置信区间,关注特别异常的点
存储的IO响应时间个人认为分为以下几种,
卷的响应时间
案例如下:
Volume: 监控提醒值 监控告警值 持续时间
Read Response times 15ms-20ms >20ms 30min
Write Response times 15ms-20ms >20ms 30min
磁盘响应时间
案例如下:
Disk : 监控提醒值 监控告警值 持续时间
Back-end Read Response times 50ms-100ms >100ms 30min
Back-end Write Response times 30ms-50ms >50ms 30min
Read Response Time 30ms-50ms >50ms 30min
Write Response Time 20ms-30ms >30ms 30min
控制节点响应时间
案例如下:
Node: 监控提醒值 监控告警值 持续时间
Read Response Time 15ms-20ms >20ms 30min
Write Response Time 15ms-20ms >20ms 30min
System CPU Utilization 50% 70% 30min
Node Utilization Percentage 50% 70% 30min
Write Cache Delay Percentage 0-1 >1 30min
具体可以根据业务重要性进行优化。
收起