作者zhangfan13·2020-05-19 21:05

项目经理·某单位

基于Prometheus和Zabbix实现容器云平台整体监控方案

字数 4401阅读 13051评论 0赞 12

一、概述

容器云成为IT的主要基础设施平台,以Docker为代表的容器技术，加上以Kubernetes为代表的容器编排技术，是目前最流行的容器云建设方案。云平台的特点是快速部署、弹性伸缩、动态调整、运维自动化，对应的监控也需要是动态发现、自动化部署的。我们的项目是以Zabbix 为基础监控工具设计和建设的，但鉴于 prometheus对docker和 k 8s 监控的天然集成，我们打算引入prometheus 和 Zabbix 结合起来，复用之前Zabbix上开发扩展的功能，达到可以快速实现、高效部署的云平台整体监控方案。

Zabbix是面向IP的监控，更适合于物理机/虚拟机环境的监控，可以通过开发自定义脚本采集数据从而实现各类型监控，Prometheus是面向服务和数据的监控，适合云环境的监控，原生支持监控容器，更好的适配k8s，且提供专业的exporter，监控项更全面，不需要二次开发；zabbix agent本身进程有限，agent进程按Server端配置串行取值，采集的效率决定于自定义脚本的执行效率，即使单个监控项采值很快，但若Host同时存在上千个agent类型监控项，还是会造成大部分agent监控项取值延迟，需根据监控项数量调整采值间隔优化，Prometheus官方显示的采集速度是10w/sec，且Prometheus使用时序数据库，更适用于监控数据的存储，按时间索引性能更高，所以使用Prometheus监控容器或k8s本身的性能监控比zabbix实现容器或k8s更优。

Prometheus监控项值仅支持数字类型，zabbix监控项取值类型支持数字、字符串，且zabbix图形化界面成熟，方便查看、配置监控项，所以可以使用zabbix将Prometheus监控项和其取值接入。

对于容器内中间件和数据库的监控，zabbix自身的Database、jmx监控方式或应用主动推送数据不需要安装agent，实现方便，容器内应用仅需与同k8s集群的容器内zabbix proxy能实现互相访问即可，监控项可以复用容器外应用模板，所以仍采用zabbix监控容器内应用实现方案。

二、总体设计架构

按照容器监控的内容，我们分为 docker+K8S基础监控和容器内应用监控两部分来分别实现。

1， docker+K8S基础监控的实现：

由于 prometheus对docker和 k 8s 监控的天然集成，通过 cAdvisor 可以直接获取 docker基础监控数据，通过 kube-state-metrics可以直接获取K8S的资源对象和对应监控数据，因此我们在每个 K 8S集群上默认部署prometheus 实现这部分监控采集，然后通过Zabbix Http Agent 方式调用prometheus API来获取数据，接入Zabbix Server从而复用之前建设的功能，实现后续的告警阈值配置和数据接入集中监控平台。

2，容器内应用监控的实现：

所有的应用监控我们都通过Zabbix实现，这里的 “ 应用 ”可以是数据库、中间件、也可以是某个应用系统，我们通过在容器中增加环境变量 monitor_type来定义，比如 monitor_type =mysql 就代表这个容器的 “ 应用 ” 是mysql ，我们将对它进行mysql监控。

我们在每个 K 8S集群上默认部署部署两种采集方式的Proxy 容器，一种是Pull采集方式（对应着Stateful set 部署方式），另一种是Push采集方式（对应着 deployment 部署方式）。

Pull的方式包括基于odbc的数据库监控、JMX的中间件监控、还有其它通过http 等方式实现的容器监控，我们用到了PVC来持久化一些配置文件。如果一个集群中需要多个Proxy，则需要Proxy 采集分工实现负载均衡。

P ush 的方式接受应用容器通过 trapper等方式主动推送过来的监控数据，这种方式的Proxy是无状态的，因此如果需要多个Proxy，可以直接通过增加 pod副本数横向扩展。

两种方式采集到的数据也都是接入到Zabbix Server中。

注意事项：

①因自动发现并监控容器内应用需要通过宿主机上agent监控脚本与容器交互取回被监控端口等信息，需在脚本中尽量减少宿主机与容器的交互次数，避免对容器造成影响

②监控容器内应用时调用了api创建单独的应用Host及创建后查询Host状态，应合理设置lld Item频率，本身不需要频繁调用，确保监控保持有效状态即可

③根据集群规模和采集数量，Prometheus需考虑在各集群的高可用和负载均衡设计架构。

三、 Promethus具体部署方案

我们目前的K8S资源对象以及K8S集群内的容器性能监控底层采集是基于promethus的，监控指标包括容器性能指标（cpu、memory、filesystem、network），K8S资源对象指标（node、pod、deployment、statefulset、service）。

每个 K 8S集群上默认部署prometheus ，需要在K8S集群内部署prometheus server和kube-state-metrics两个组件：

l prometheus server：负责采集和存储监控数据，同时提供HTTP API数据访问接口供zabbix使用。

l kube-state-metrics：负责向prometheus server提供k8s集群级别的各种资源对象的监控数据。

Zabbix通过http agent方式访问prometheus server API获取数据：

具体方案：

1 、启动default命名空间下的kubernetes enpoints和kubernetes service，这两个资源在获取cAdvisor监控数据过程中起到网络连通的作用，如果不启动，会导致prometheus无法获取到cAdvisor提供的监控指标数据。一般来说，这两个资源都是默认启动的。

2 、集群中的每个工作节点需要启动kubelet，因为cAdvisor集成在kubelet中，如果不启动kubelet将无法采集到cAdvisor监控数据。一般来说，kubelet在各个节点是默认启动的。

3、Prometheus server部署（ deployment 方式）

对于prometheus server，需要满足以下条件

使用 statefulset 类型的部署方式，以满足线上管理要求
同时绑定ClusterIP类型的service和NodePort类型的service，以实现其既可以与集群内部通讯，又可以与集群外部通讯
使用本地数据存储，以保证其时序数据库的数据安全不丢失。
prometheus服务所需要用的配置信息存储在ConfigMap中，以方便配置信息的变更
同时部署configmap-reload容器，以便自动加载配置信息到prometheus服务（当ConfigMap有修改时）

4、kube-state-metrics部署（deployment方式）

对于kube-state-metrics，需要满足以下条件

绑定ClusterIP类型的service，以便可以在集群内部访问（它不需要集群外部的访问）
使用deployment类型的部署方式，以满足线上管理要求

5、Prometheus server服务发现配置

prometheus server的配置文件中至少需要开启以下job

Prometheus server需要启用kubernetes-nodes-cadvisor服务发现，用于容器指标数据的采集
还需要启用对kube-state-metrics的自动发现和数据采集，这部分数据用于k8s资源对象的监控

四、容器Zabbixproxy部署方案

对容器内部应用的监控则是通过容器内proxy端监控。我们在每个 K 8S集群上默认部署部署两种采集方式的Proxy 容器，一种是Pull采集方式（对应着Statefull set 部署方式），另一种是Push采集方式（对应着 deployment 部署方式）。

Pull采集方式为Zabbix Proxy主动采集数据，Proxy从Server获取到配置信息后与得到的IP和端口进行通信得到监控项的值，获取数据后再返回给Server； Push采集方式为应用主动推送数据给Zabbix Proxy，应用容器需要向指定的Proxy 的 IP地址，Proxy得到数据后再推送给Server，由于容器本身并不会有固定的IP地址，拟使用service替Proxy向外提供固定的IP和端口。

1,Pull采集方式容器Proxy部署架构图：

部署具体方案：

1.生产18个集群都需部署容器Proxy（statefulset），可能一个集群需要部署多个Proxy，根据zabbix监控需求和监控数据量部署，一个statefulset包含4个container

2.Service需要提供名称使被监控的数据库给zabbix Proxy授权，采用NodePort暴露方式，仅定义了port和targetport，未定义NodePort

3.容器Proxy定义了pvc，申请Storage为1G

4.各Container资源配置祥看配置文件部分

2 ， Push采集方式的容器Proxy部署架构图：

部署需求：

生产18个集群都需部署容器Proxy（deployement），一个集群仅需部署一个Proxy，通过配置文件中replicas决定pod数量

Service需要提供端口给应用容器访问，推送数据，采用NodePort暴露方式，仅定义了port和targetport，因为不涉及集群外访问，未定义NodePort

3.各Container资源配置祥看配置文件部分

五、小结

以上就是我们基于Prometheus和Zabbix实现容器云平台整体监控方案，它是基于我们这边云平台整体的监控方案，和潜望者Zabbix开源监控项目已建设的成果来设计的，可能不是最优方案，但从实现成本、监控稳定性、开发周期上来说是我们目前最合理的方案，仅供各路专家参考，不妥之处欢迎批评指导。另外整体的方案还包括具体的监控指标、指标实现、自动化部署、自动发现方案、云监控分层展示方案等，内容较多，后续再跟大家分享，谢谢！

Prometheus 容器云平台容器监控容器云 Zabbix

著作权归作者所有

如果觉得我的文章对您有用，请点赞。您的支持将鼓励我继续创作！

添加新评论0 条评论

Ctrl+Enter 发表

匿名评论

基于Prometheus和Zabbix实现容器云平台整体监控方案

一、概述

二、总体设计架构

三、 Promethus具体部署方案

四、容器Zabbixproxy部署方案

五、小结

添加新评论0 条评论

作者其他文章

相关文章

相关问题

相关资料

基于Prometheus和Zabbix实现容器云平台整体监控方案

一、 概述

二、 总体设计架构

三、 Promethus具体部署方案

四、 容器Zabbixproxy部署方案

五、 小结

添加新评论0 条评论

作者其他文章

相关文章

相关问题

相关资料

一、概述

二、总体设计架构

四、容器Zabbixproxy部署方案

五、小结