对于容器化故障运维保障有哪些建议？

参与6

查看其它 1 个回答朱祥磊的回答

朱祥磊系统架构师某移动公司

对于容器化故障运维保障，需要做到以下几个方面：
1 对整个集群的状态，做健康检查，目前可以通过prometheus, Grafana监控系统 ,通过prometheus定期抓取指标，设置告警，送到altermanager,altermanager调用短信网关，或者邮件，就可以下发短信，或者邮件告警，这样运维人员可以立马相应处理。
2对于容器化的应用，很多的微服务，有问题了，定位问题，需要查看日志，而容器日志多，查看日志就需要借助一个ELK或者EFK一整套的日志解决方案。
3 使用自动化的运维工具，提供工作效率。
4 每个微服务要去除对单个节点的强依赖，这样即使一个节点宕机了，对业务也没有影响。
5 对于重要的节点，如k8s的master节点，要做高可用HA，即使一个节点宕机，对集群也没有影响。
5 镜像仓库也要做高可用。即使一个仓库除问题，根据高可用，使用一个虚拟IP，可以漂移到另外一个节点，为k8s集群的镜像拉取提供可靠服务。

电信运营商 · 2019-12-26

查看赞同的人

对于容器化故障运维保障有哪些建议？

查看其它 1 个回答朱祥磊的回答

回答者

朱祥磊最近回答过的问题

回答状态

对于容器化故障运维保障有哪些建议？

查看其它 1 个回答朱祥磊的回答

回答者

朱祥磊 最近回答过的问题

回答状态

朱祥磊最近回答过的问题