根据我们的经验,Prometheus 里有 50% 以上的存储空间和 80% 以上的计算资源(CPU、内存)都是被那么两三个维度超高的指标用掉的。而且这类维度超高的指标由于数据量很大,稍微查得野一点就会 OOM 搞死 Prometheus 实例。首先要明确这类指标是对 Prometheus 的滥用,类似需求完全...
显示全部根据我们的经验,Prometheus 里有 50% 以上的存储空间和 80% 以上的计算资源(CPU、内存)都是被那么两三个维度超高的指标用掉的。而且这类维度超高的指标由于数据量很大,稍微查得野一点就会 OOM 搞死 Prometheus 实例。
首先要明确这类指标是对 Prometheus 的滥用,类似需求完全应该放到日志流或数仓里去算。但是指标的接入方关注的往往是业务上够不够方便,假如足够方便的话什么都可以往 label 里塞。
这就需要我们防患于未然,一个有效的办法是用警报规则找出维度过高的坏指标,然后在 Scrape 配置里 Drop 掉导致维度过高的 label。
收起