容器云有哪些较为重要的监控告警指标?
哪些场景下需要zabbix进行监控,哪些场景适合Prometheus进行监控?
是否有合适的监控方式可以相对实时获取POD的资源使用率,目前采用的Prometheus监控容器POD资源使用率,可能由于计算方式问题,按照分钟维度计算使用率与实际使用率存在较大出入,是否有必要对容器POD资源的使用率情况进行实时监控?
业内对于容器流量监控是否有较好的解决方案
1.首先容器云如果是采用红帽的Openshift的话,可以安装Elasticsearch+Logstash+Kibana ,或是Elasticsearch+Fluentd+Kibana对相应的系统日志,应用日志,log 日志做统一收集管理,在这个基础上Openshift内置了Prometheus,对集群节点和应用pod都可以做全面的管控和监控要求,可以按需定制化你的需求和特性。
2.其次如果要对应用层级的pod 做监控和使用率情况,Openshift 资深的health check 就可以做到一部分功能,另外可以结合Redhat Service mesh对相应的pod的流量,访问,request,反应时间等等不同的指标都可以做全面的管理和控制。
3.最后所有的这些监控组件都可以在Openshift通过Operator市场去管理,并且进行安装。
收起指标 | 单位 | 说明 |
---|---|---|
CPU利用率 | % | 集群整体的 CPU 利用率 |
内存利用率 | % | 集群整体的内存利用率 |
指标 | 单位 | 说明 |
---|---|---|
Pod重启次数 | 次 | 节点内所有 Pod 的重启次数之和 |
异常状态 | - | 节点的状态,正常或异常 |
CPU利用率 | % | 节点内所有 Pod 的 CPU 使用量占节点总量之比 |
内存利用率 | % | 节点内所有 Pod 的内存使用量占节点总量之比 |
内网入带宽 | bps | 节点内所有 Pod 的内网入方向带宽之和 |
内网出带宽 | bps | 节点内所有 Pod 的内网出方向带宽之和 |
外网入带宽 | bps | 节点内所有 Pod 的外网入方向带宽之和 |
外网出带宽 | bps | 节点内所有 Pod 的外网出方向带宽之和 |
TCP连接数 | 个 | 节点保持的 TCP 连接数 |
指标 | 单位 | 说明 |
---|---|---|
Pod 重启次数 | 次 | 工作负载内所有 Pod 的重启次数之和 |
CPU 使用量 | 核 | 工作负载内所有 Pod 的 CPU 使用量 |
CPU 利用率(占集群) | % | 工作负载内所有 Pod 的 CPU 使用量占集群总量之比 |
内存使用量 | B | 工作负载内所有 Pod 的内存使用量 |
内存利用率(占集群) | % | 工作负载内所有 Pod 的内存使用量占集群总量之比 |
网络入带宽 | bps | 工作负载内所有 Pod 的入方向带宽之和 |
网络出带宽 | bps | 工作负载内所有 Pod 的出方向带宽之和 |
网络入流量 | B | 工作负载内所有 Pod 的入方向流量之和 |
网络出流量 | B | 工作负载内所有 Pod 的出方向流量之和 |
网络入包量 | 个/s | 工作负载内所有 Pod 的入方向包数之和 |
网络出包量 | 个/s | 工作负载内所有 Pod 的出方向包数之和 |
指标 | 单位 | 说明 |
---|---|---|
异常状态 | - | Pod 的状态,正常或异常 |
CPU 使用量 | 核 | Pod 的 CPU 使用量 |
CPU 利用率(占节点) | % | Pod 的 CPU 使用量占节点总量之比 |
CPU 利用率(占 Request) | % | Pod 的 CPU 使用量和设置的 Request 值之比 |
CPU 利用率(占 Limit) | % | Pod 的 CPU 使用量和设置的 Limit 值之比 |
内存使用量 | B | Pod 的内存使用量,含缓存 |
内存使用量(不包含 Cache) | B | Pod 内所有 Container 的真实内存使用量(不含缓存) |
内存利用率(占节点) | % | Pod 的内存使用量占节点总量之比 |
内存利用率(占节点,不包含 Cache) | % | Pod 内所有 Container 的真实内存使用量(不含缓存)占节点总量之比 |
内存利用率(占 Request) | % | Pod 的内存使用量和设置的 Request 值之比 |
内存利用率(占 Request,不包含Cache) | % | Pod 内所有 Container 的真实内存使用量(不含缓存)和设置的 Request 值之比 |
内存利用率(占 Limit) | % | Pod 的内存使用量和设置的 Limit 值之比 |
内存利用率(占 Limit,不包含 Cache) | % | Pod 内所有 Container 的真实内存使用量(不含缓存)和设置的 Limit 值之比 |
网络入带宽 | bps | Pod 的入方向带宽之和 |
网络出带宽 | bps | Pod 的出方向带宽之和 |
网络入流量 | B | Pod 的入方向流量之和 |
网络出流量 | B | Pod 的出方向流量之和 |
网络入包量 | 个/s | Pod 的入方向包数之和 |
网络出包量 | 个/s | Pod 的出方向包数之和 |
指标 | 单位 | 说明 |
---|---|---|
CPU 使用量 | 核 | Container 的 CPU 使用量 |
CPU 利用率(占节点) | % | Container 的 CPU 使用量占节点总量之比 |
CPU 利用率(占 Request) | % | Container 的 CPU 使用量和设置的 Request 值之比 |
CPU 利用率(占 Limit) | % | Container 的 CPU 使用量和设置的 Limit 值之比 |
内存使用量 | B | Container 的内存使用量,含缓存 |
内存使用量(不包含 Cache) | B | Container 的真实内存使用量(不含缓存) |
内存利用率(占节点) | % | Container 的内存使用量占节点总量之比 |
内存利用率(占节点,不包含 Cache) | % | Container 的真实内存使用量(不含缓存)占节点总量之比 |
内存利用率(占 Request) | % | Container 的内存使用量和设置的 Request 值之比 |
内存利用率(占 Request,不包含 Cache) | % | Container 的真实内存使用量(不含缓存)和设置的 Request 值之比 |
内存利用率(占 Limit) | % | Container 的内存使用量和设置的 Limit 值之比 |
内存利用率(占 Limit,不包含 Cache) | % | Container 的真实内存使用量(不含缓存)和设置的 Limit 值之比 |
块设备读带宽 | B/s | Container 从硬盘读取数据的吞吐量 |
块设备写带宽 | B/s | Container 把数据写入硬盘的吞吐量 |
块设备读 IOPS | 次/s | Container 从硬盘读取数据的 IO 次数 |
块设备写 IOPS | 次/s | Container 把数据写入硬盘的 IO 次数 |
指标 | 单位 | 说明 |
---|---|---|
CPU 利用率 | % | 集群整体的 CPU 利用率 |
内存利用率 | % | 集群整体的内存利用率 |
CPU 分配率 | % | 集群所有容器设置的 CPU Request 之和与集群总可分配 CPU 之比 |
内存分配率 | % | 集群所有容器设置的内存 Request 之和与集群总可分配内存之比 |
Apiserver 正常 | - | Apiserver 状态,默认 False 时告警,仅独立集群支持该指标 |
Etcd 正常 | - | Etcd 状态,默认 False 时告警,仅独立集群支持该指标 |
Scheduler 正常 | - | Scheduler 状态,默认 False 时告警,仅独立集群支持该指标 |
Controll Manager 正常 | - | Controll Manager 状态,默认 False 时告警,仅独立集群支持该指标 |
指标 | 单位 | 说明 |
---|---|---|
CPU 利用率 | % | 节点内所有 Pod 的 CPU 使用量占节点总量之比 |
内存利用率 | % | 节点内所有 Pod 的内存使用量占节点总量之比 |
节点上 Pod 重启次数 | 次 | 节点内所有 Pod 重启次数之和 |
Node Ready | - | 节点状态,默认 False 时告警 |
指标 | 单位 | 说明 |
---|---|---|
CPU 利用率(占节点) | % | Pod 的 CPU 使用量占节点总量之比 |
内存利用率(占节点) | % | Pod 的内存使用量占节点总量之比 |
实际内存利用率(占节点,不包含 Cache) | % | Pod 内所有 Container 的真实内存使用量(不含缓存)占节点总量之比 |
CPU 利用率(占 Limit) | % | Pod 的CPU使用量和设置的 Limit 值之比 |
内存利用率(占 Limit) | % | Pod 的内存使用量和设置的 Limit 值之比 |
实际内存利用率(占 Limit,不包含 Cache) | % | Pod 内所有 Container 的真实内存使用量(不含缓存)和设置的 Limit 值之比 |
Pod 重启次数 | 次 | Pod 的重启次数 |
Pod Ready | - | Pod 的状态,默认 False 时告警 |
CPU 使用量 | 核 | Pod 的 CPU 使用量 |
内存使用量 | MB | Pod 的内存使用量,含缓存 |
实际内存使用量 | MB | Pod 内所有 Container 的真实内存使用量之和,不含缓存 |