对于容器化故障运维保障,需要做到以下几个方面:
1 对整个集群的状态,做健康检查,目前可以通过prometheus, Grafana监控系统 ,通过prometheus定期抓取指标,设置告警,送到altermanager,altermanager调用短信网关,或者邮件,就可以下发短信,或者邮件告警,这样运维人员可以立马相应处理。
2对于容器化的应用, 很多的微服务,有问题了,定位问题,需要查看日志,而容器日志多,查看日志就需要借助一个ELK或者EFK一整套的日志解决方案。
3 使用自动化的运维工具,提供工作效率。
4 每个微服务要去除对单个节点的强依赖,这样即使一个节点宕机了,对业务也没有影响。
5 对于重要的节点,如k8s的master节点,要做高可用HA,即使一个节点宕机,对集群也没有影响。
5 镜像仓库也要做高可用。即使一个仓库除问题,根据高可用,使用一个虚拟IP,可以漂移到另外一个节点 ,为k8s集群的镜像拉取提供可靠服务。