容器云有哪些较为重要的监控告警指标?业内对于容器流量监控是否有较好的解决方案?

容器云有哪些较为重要的监控告警指标?
哪些场景下需要zabbix进行监控,哪些场景适合Prometheus进行监控?
是否有合适的监控方式可以相对实时获取POD的资源使用率,目前采用的Prometheus监控容器POD资源使用率,可能由于计算方式问题,按照分钟维度计算使用率与实际使用率存在较大出入,是否有必要对容器POD资源的使用率情况进行实时监控?
业内对于容器流量监控是否有较好的解决方案

参与7

2同行回答

liuxiangwinliuxiangwinSaRedhat
1.首先容器云如果是采用红帽的Openshift的话,可以安装Elasticsearch+Logstash+Kibana ,或是Elasticsearch+Fluentd+Kibana对相应的系统日志,应用日志,log 日志做统一收集管理,在这个基础上Openshift内置了Prometheus,对集群节点和应用pod都可以做全面的管控和监控要求,可以按需...显示全部

1.首先容器云如果是采用红帽的Openshift的话,可以安装Elasticsearch+Logstash+Kibana ,或是Elasticsearch+Fluentd+Kibana对相应的系统日志,应用日志,log 日志做统一收集管理,在这个基础上Openshift内置了Prometheus,对集群节点和应用pod都可以做全面的管控和监控要求,可以按需定制化你的需求和特性。

2.其次如果要对应用层级的pod 做监控和使用率情况,Openshift 资深的health check 就可以做到一部分功能,另外可以结合Redhat Service mesh对相应的pod的流量,访问,request,反应时间等等不同的指标都可以做全面的管理和控制。

3.最后所有的这些监控组件都可以在Openshift通过Operator市场去管理,并且进行安装。

收起
电子/电信其它 · 2020-12-09
浏览1892
lzj7618937lzj7618937质控经理cib
集群监控指标指标单位说明CPU利用率%集群整体的 CPU 利用率内存利用率%集群整体的内存利用率Master&Etcd 和普通节点监控指标指标单位说明Pod重启次数次节点内所有 Pod 的重启次数之和异常状态-节点的状态,正常或异常CPU利用率%节点内所有 Pod 的 CPU 使用量占节点总...显示全部

集群监控指标

指标单位说明
CPU利用率%集群整体的 CPU 利用率
内存利用率%集群整体的内存利用率

Master&Etcd 和普通节点监控指标

指标单位说明
Pod重启次数节点内所有 Pod 的重启次数之和
异常状态-节点的状态,正常或异常
CPU利用率%节点内所有 Pod 的 CPU 使用量占节点总量之比
内存利用率%节点内所有 Pod 的内存使用量占节点总量之比
内网入带宽bps节点内所有 Pod 的内网入方向带宽之和
内网出带宽bps节点内所有 Pod 的内网出方向带宽之和
外网入带宽bps节点内所有 Pod 的外网入方向带宽之和
外网出带宽bps节点内所有 Pod 的外网出方向带宽之和
TCP连接数节点保持的 TCP 连接数

工作负载监控指标

指标单位说明
Pod 重启次数工作负载内所有 Pod 的重启次数之和
CPU 使用量工作负载内所有 Pod 的 CPU 使用量
CPU 利用率(占集群)%工作负载内所有 Pod 的 CPU 使用量占集群总量之比
内存使用量B工作负载内所有 Pod 的内存使用量
内存利用率(占集群)%工作负载内所有 Pod 的内存使用量占集群总量之比
网络入带宽bps工作负载内所有 Pod 的入方向带宽之和
网络出带宽bps工作负载内所有 Pod 的出方向带宽之和
网络入流量B工作负载内所有 Pod 的入方向流量之和
网络出流量B工作负载内所有 Pod 的出方向流量之和
网络入包量个/s工作负载内所有 Pod 的入方向包数之和
网络出包量个/s工作负载内所有 Pod 的出方向包数之和

Pod 监控指标

指标单位说明
异常状态-Pod 的状态,正常或异常
CPU 使用量Pod 的 CPU 使用量
CPU 利用率(占节点)%Pod 的 CPU 使用量占节点总量之比
CPU 利用率(占 Request)%Pod 的 CPU 使用量和设置的 Request 值之比
CPU 利用率(占 Limit)%Pod 的 CPU 使用量和设置的 Limit 值之比
内存使用量BPod 的内存使用量,含缓存
内存使用量(不包含 Cache)BPod 内所有 Container 的真实内存使用量(不含缓存)
内存利用率(占节点)%Pod 的内存使用量占节点总量之比
内存利用率(占节点,不包含 Cache)%Pod 内所有 Container 的真实内存使用量(不含缓存)占节点总量之比
内存利用率(占 Request)%Pod 的内存使用量和设置的 Request 值之比
内存利用率(占 Request,不包含Cache)%Pod 内所有 Container 的真实内存使用量(不含缓存)和设置的 Request 值之比
内存利用率(占 Limit)%Pod 的内存使用量和设置的 Limit 值之比
内存利用率(占 Limit,不包含 Cache)%Pod 内所有 Container 的真实内存使用量(不含缓存)和设置的 Limit 值之比
网络入带宽bpsPod 的入方向带宽之和
网络出带宽bpsPod 的出方向带宽之和
网络入流量BPod 的入方向流量之和
网络出流量BPod 的出方向流量之和
网络入包量个/sPod 的入方向包数之和
网络出包量个/sPod 的出方向包数之和

Container 监控指标

指标单位说明
CPU 使用量Container 的 CPU 使用量
CPU 利用率(占节点)%Container 的 CPU 使用量占节点总量之比
CPU 利用率(占 Request)%Container 的 CPU 使用量和设置的 Request 值之比
CPU 利用率(占 Limit)%Container 的 CPU 使用量和设置的 Limit 值之比
内存使用量BContainer 的内存使用量,含缓存
内存使用量(不包含 Cache)BContainer 的真实内存使用量(不含缓存)
内存利用率(占节点)%Container 的内存使用量占节点总量之比
内存利用率(占节点,不包含 Cache)%Container 的真实内存使用量(不含缓存)占节点总量之比
内存利用率(占 Request)%Container 的内存使用量和设置的 Request 值之比
内存利用率(占 Request,不包含 Cache)%Container 的真实内存使用量(不含缓存)和设置的 Request 值之比
内存利用率(占 Limit)%Container 的内存使用量和设置的 Limit 值之比
内存利用率(占 Limit,不包含 Cache)%Container 的真实内存使用量(不含缓存)和设置的 Limit 值之比
块设备读带宽B/sContainer 从硬盘读取数据的吞吐量
块设备写带宽B/sContainer 把数据写入硬盘的吞吐量
块设备读 IOPS次/sContainer 从硬盘读取数据的 IO 次数
块设备写 IOPS次/sContainer 把数据写入硬盘的 IO 次数

集群告警指标

指标单位说明
CPU 利用率%集群整体的 CPU 利用率
内存利用率%集群整体的内存利用率
CPU 分配率%集群所有容器设置的 CPU Request 之和与集群总可分配 CPU 之比
内存分配率%集群所有容器设置的内存 Request 之和与集群总可分配内存之比
Apiserver 正常-Apiserver 状态,默认 False 时告警,仅独立集群支持该指标
Etcd 正常-Etcd 状态,默认 False 时告警,仅独立集群支持该指标
Scheduler 正常-Scheduler 状态,默认 False 时告警,仅独立集群支持该指标
Controll Manager 正常-Controll Manager 状态,默认 False 时告警,仅独立集群支持该指标

节点告警指标

指标单位说明
CPU 利用率%节点内所有 Pod 的 CPU 使用量占节点总量之比
内存利用率%节点内所有 Pod 的内存使用量占节点总量之比
节点上 Pod 重启次数节点内所有 Pod 重启次数之和
Node Ready-节点状态,默认 False 时告警

Pod 告警指标

指标单位说明
CPU 利用率(占节点)%Pod 的 CPU 使用量占节点总量之比
内存利用率(占节点)%Pod 的内存使用量占节点总量之比
实际内存利用率(占节点,不包含 Cache)%Pod 内所有 Container 的真实内存使用量(不含缓存)占节点总量之比
CPU 利用率(占 Limit)%Pod 的CPU使用量和设置的 Limit 值之比
内存利用率(占 Limit)%Pod 的内存使用量和设置的 Limit 值之比
实际内存利用率(占 Limit,不包含 Cache)%Pod 内所有 Container 的真实内存使用量(不含缓存)和设置的 Limit 值之比
Pod 重启次数Pod 的重启次数
Pod Ready-Pod 的状态,默认 False 时告警
CPU 使用量Pod 的 CPU 使用量
内存使用量MBPod 的内存使用量,含缓存
实际内存使用量MBPod 内所有 Container 的真实内存使用量之和,不含缓存

收起
银行 · 2020-12-09
浏览1889

提问者

御麟
其它某银行
擅长领域: 云计算容器容器云

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2020-12-09
  • 关注会员:3 人
  • 问题浏览:2906
  • 最近回答:2020-12-09
  • X社区推广