对于容器化故障运维保障有哪些建议?

参与6

2同行回答

朱祥磊朱祥磊系统架构师某移动公司
对于容器化故障运维保障,需要做到以下几个方面:1 对整个集群的状态,做健康检查,目前可以通过prometheus, Grafana监控系统 ,通过prometheus定期抓取指标,设置告警,送到altermanager,altermanager调用短信网关,或者邮件,就可以下发短信,或者邮件告警,这样运维人员可以立马相应处理...显示全部

对于容器化故障运维保障,需要做到以下几个方面:
1 对整个集群的状态,做健康检查,目前可以通过prometheus, Grafana监控系统 ,通过prometheus定期抓取指标,设置告警,送到altermanager,altermanager调用短信网关,或者邮件,就可以下发短信,或者邮件告警,这样运维人员可以立马相应处理。
2对于容器化的应用, 很多的微服务,有问题了,定位问题,需要查看日志,而容器日志多,查看日志就需要借助一个ELK或者EFK一整套的日志解决方案。
3 使用自动化的运维工具,提供工作效率。
4 每个微服务要去除对单个节点的强依赖,这样即使一个节点宕机了,对业务也没有影响。
5 对于重要的节点,如k8s的master节点,要做高可用HA,即使一个节点宕机,对集群也没有影响。
5 镜像仓库也要做高可用。即使一个仓库除问题,根据高可用,使用一个虚拟IP,可以漂移到另外一个节点 ,为k8s集群的镜像拉取提供可靠服务。

收起
电信运营商 · 2019-12-26
浏览1623
1. 应该建立一个监控系统,比如就OpenShift容器云平台而言,本身提供了 普罗米修斯和Grafana监控系统,而且普罗米修斯里面的AlertManager也可以通过配置告警规则触发web hooks,跟已有的告警系统集成。 2. 应该建立一个统一日志系统,比如 EFK或ELK日志系统。 3. 如果有统一的...显示全部

1. 应该建立一个监控系统,比如就OpenShift容器云平台而言,本身提供了 普罗米修斯和Grafana监控系统,而且普罗米修斯里面的AlertManager也可以通过配置告警规则触发web hooks,跟已有的告警系统集成。
2. 应该建立一个统一日志系统,比如 EFK或ELK日志系统。
3. 如果有统一的自动化运维系统,集成容器云平台和自动化运维系统。

收起
软件开发 · 2019-12-26
浏览1566

提问者

zv8912000
系统架构师电信行业
擅长领域: 服务器云计算分布式系统

问题来自

相关问题

相关资料

问题状态

  • 发布时间:2019-12-25
  • 关注会员:3 人
  • 问题浏览:3122
  • 最近回答:2019-12-26
  • X社区推广