通常可以考虑分层实现监控,然后由统一的监控中心汇总数据进行展示
分层比如说基础设施资源层、容器云平台层、数据层、应用层、周边工具等
每一层次关注的重点不一样,但理论上层与层之间是关联和支撑的,从应用层可以下钻到数据层、平台层,平台层可以下钻到基础设施资源层,基础设施资源层也可能分为若干子层,这样就可以把需要监控的内容都监控起来
收起现在大多数容器云,如OpenShift,都使用 grafana+prometheus进行监控。
需要补充的是,OpenShift上的 grafana+prometheus主要针对容器云平台进行监控,如果客户想定制化监控应用的指标,一般建议单独部署一套 grafana+prometheus,也就是说,把应用的监控和应用的监控分开。如果监控指标不需要定制化,只需要报表的定制化,那么单独部署一个 grafana ,从现有 prometheus 中抓取数据即可。
建议制定统一的日志规范,将容器云平台,以及其上的业务应用系统的日志进行采集,进行监控和告警。 特别是生产环境的容器云平台要先进行严格的POC测试,包括对供应商产品的监控等功能,选择好成熟的K8S商用发行版。
收起