容器云有哪些较为重要的监控告警指标?业内对于容器流量监控是否有较好的解决方案?

容器云有哪些较为重要的监控告警指标?哪些场景下需要zabbix进行监控,哪些场景适合Prometheus进行监控?是否有合适的监控方式可以相对实时获取POD的资源使用率,目前采用的Prometheus监控容器POD资源使用率,可能由于计算方式问题,按照分钟维度计算使用率与实际使用率存在较大出入...显示全部

容器云有哪些较为重要的监控告警指标?
哪些场景下需要zabbix进行监控,哪些场景适合Prometheus进行监控?
是否有合适的监控方式可以相对实时获取POD的资源使用率,目前采用的Prometheus监控容器POD资源使用率,可能由于计算方式问题,按照分钟维度计算使用率与实际使用率存在较大出入,是否有必要对容器POD资源的使用率情况进行实时监控?
业内对于容器流量监控是否有较好的解决方案

收起
参与7

查看其它 1 个回答lzj7618937的回答

lzj7618937lzj7618937质控经理cib

集群监控指标

指标单位说明
CPU利用率%集群整体的 CPU 利用率
内存利用率%集群整体的内存利用率

Master&Etcd 和普通节点监控指标

指标单位说明
Pod重启次数节点内所有 Pod 的重启次数之和
异常状态-节点的状态,正常或异常
CPU利用率%节点内所有 Pod 的 CPU 使用量占节点总量之比
内存利用率%节点内所有 Pod 的内存使用量占节点总量之比
内网入带宽bps节点内所有 Pod 的内网入方向带宽之和
内网出带宽bps节点内所有 Pod 的内网出方向带宽之和
外网入带宽bps节点内所有 Pod 的外网入方向带宽之和
外网出带宽bps节点内所有 Pod 的外网出方向带宽之和
TCP连接数节点保持的 TCP 连接数

工作负载监控指标

指标单位说明
Pod 重启次数工作负载内所有 Pod 的重启次数之和
CPU 使用量工作负载内所有 Pod 的 CPU 使用量
CPU 利用率(占集群)%工作负载内所有 Pod 的 CPU 使用量占集群总量之比
内存使用量B工作负载内所有 Pod 的内存使用量
内存利用率(占集群)%工作负载内所有 Pod 的内存使用量占集群总量之比
网络入带宽bps工作负载内所有 Pod 的入方向带宽之和
网络出带宽bps工作负载内所有 Pod 的出方向带宽之和
网络入流量B工作负载内所有 Pod 的入方向流量之和
网络出流量B工作负载内所有 Pod 的出方向流量之和
网络入包量个/s工作负载内所有 Pod 的入方向包数之和
网络出包量个/s工作负载内所有 Pod 的出方向包数之和

Pod 监控指标

指标单位说明
异常状态-Pod 的状态,正常或异常
CPU 使用量Pod 的 CPU 使用量
CPU 利用率(占节点)%Pod 的 CPU 使用量占节点总量之比
CPU 利用率(占 Request)%Pod 的 CPU 使用量和设置的 Request 值之比
CPU 利用率(占 Limit)%Pod 的 CPU 使用量和设置的 Limit 值之比
内存使用量BPod 的内存使用量,含缓存
内存使用量(不包含 Cache)BPod 内所有 Container 的真实内存使用量(不含缓存)
内存利用率(占节点)%Pod 的内存使用量占节点总量之比
内存利用率(占节点,不包含 Cache)%Pod 内所有 Container 的真实内存使用量(不含缓存)占节点总量之比
内存利用率(占 Request)%Pod 的内存使用量和设置的 Request 值之比
内存利用率(占 Request,不包含Cache)%Pod 内所有 Container 的真实内存使用量(不含缓存)和设置的 Request 值之比
内存利用率(占 Limit)%Pod 的内存使用量和设置的 Limit 值之比
内存利用率(占 Limit,不包含 Cache)%Pod 内所有 Container 的真实内存使用量(不含缓存)和设置的 Limit 值之比
网络入带宽bpsPod 的入方向带宽之和
网络出带宽bpsPod 的出方向带宽之和
网络入流量BPod 的入方向流量之和
网络出流量BPod 的出方向流量之和
网络入包量个/sPod 的入方向包数之和
网络出包量个/sPod 的出方向包数之和

Container 监控指标

指标单位说明
CPU 使用量Container 的 CPU 使用量
CPU 利用率(占节点)%Container 的 CPU 使用量占节点总量之比
CPU 利用率(占 Request)%Container 的 CPU 使用量和设置的 Request 值之比
CPU 利用率(占 Limit)%Container 的 CPU 使用量和设置的 Limit 值之比
内存使用量BContainer 的内存使用量,含缓存
内存使用量(不包含 Cache)BContainer 的真实内存使用量(不含缓存)
内存利用率(占节点)%Container 的内存使用量占节点总量之比
内存利用率(占节点,不包含 Cache)%Container 的真实内存使用量(不含缓存)占节点总量之比
内存利用率(占 Request)%Container 的内存使用量和设置的 Request 值之比
内存利用率(占 Request,不包含 Cache)%Container 的真实内存使用量(不含缓存)和设置的 Request 值之比
内存利用率(占 Limit)%Container 的内存使用量和设置的 Limit 值之比
内存利用率(占 Limit,不包含 Cache)%Container 的真实内存使用量(不含缓存)和设置的 Limit 值之比
块设备读带宽B/sContainer 从硬盘读取数据的吞吐量
块设备写带宽B/sContainer 把数据写入硬盘的吞吐量
块设备读 IOPS次/sContainer 从硬盘读取数据的 IO 次数
块设备写 IOPS次/sContainer 把数据写入硬盘的 IO 次数

集群告警指标

指标单位说明
CPU 利用率%集群整体的 CPU 利用率
内存利用率%集群整体的内存利用率
CPU 分配率%集群所有容器设置的 CPU Request 之和与集群总可分配 CPU 之比
内存分配率%集群所有容器设置的内存 Request 之和与集群总可分配内存之比
Apiserver 正常-Apiserver 状态,默认 False 时告警,仅独立集群支持该指标
Etcd 正常-Etcd 状态,默认 False 时告警,仅独立集群支持该指标
Scheduler 正常-Scheduler 状态,默认 False 时告警,仅独立集群支持该指标
Controll Manager 正常-Controll Manager 状态,默认 False 时告警,仅独立集群支持该指标

节点告警指标

指标单位说明
CPU 利用率%节点内所有 Pod 的 CPU 使用量占节点总量之比
内存利用率%节点内所有 Pod 的内存使用量占节点总量之比
节点上 Pod 重启次数节点内所有 Pod 重启次数之和
Node Ready-节点状态,默认 False 时告警

Pod 告警指标

指标单位说明
CPU 利用率(占节点)%Pod 的 CPU 使用量占节点总量之比
内存利用率(占节点)%Pod 的内存使用量占节点总量之比
实际内存利用率(占节点,不包含 Cache)%Pod 内所有 Container 的真实内存使用量(不含缓存)占节点总量之比
CPU 利用率(占 Limit)%Pod 的CPU使用量和设置的 Limit 值之比
内存利用率(占 Limit)%Pod 的内存使用量和设置的 Limit 值之比
实际内存利用率(占 Limit,不包含 Cache)%Pod 内所有 Container 的真实内存使用量(不含缓存)和设置的 Limit 值之比
Pod 重启次数Pod 的重启次数
Pod Ready-Pod 的状态,默认 False 时告警
CPU 使用量Pod 的 CPU 使用量
内存使用量MBPod 的内存使用量,含缓存
实际内存使用量MBPod 内所有 Container 的真实内存使用量之和,不含缓存

银行 · 2020-12-09
浏览1896

回答者

lzj7618937
质控经理cib
擅长领域: 云计算容器容器云

lzj7618937 最近回答过的问题

回答状态

  • 发布时间:2020-12-09
  • 关注会员:3 人
  • 回答浏览:1896
  • X社区推广