查看其它 1 个回答朱祥磊的回答

朱祥磊朱祥磊系统架构师某移动公司

对于容器化故障运维保障,需要做到以下几个方面:
1 对整个集群的状态,做健康检查,目前可以通过prometheus, Grafana监控系统 ,通过prometheus定期抓取指标,设置告警,送到altermanager,altermanager调用短信网关,或者邮件,就可以下发短信,或者邮件告警,这样运维人员可以立马相应处理。
2对于容器化的应用, 很多的微服务,有问题了,定位问题,需要查看日志,而容器日志多,查看日志就需要借助一个ELK或者EFK一整套的日志解决方案。
3 使用自动化的运维工具,提供工作效率。
4 每个微服务要去除对单个节点的强依赖,这样即使一个节点宕机了,对业务也没有影响。
5 对于重要的节点,如k8s的master节点,要做高可用HA,即使一个节点宕机,对集群也没有影响。
5 镜像仓库也要做高可用。即使一个仓库除问题,根据高可用,使用一个虚拟IP,可以漂移到另外一个节点 ,为k8s集群的镜像拉取提供可靠服务。

电信运营商 · 2019-12-26
浏览1601

回答者

朱祥磊
系统架构师某移动公司
擅长领域: 人工智能云计算大数据

朱祥磊 最近回答过的问题

回答状态

  • 发布时间:2019-12-26
  • 关注会员:3 人
  • 回答浏览:1601
  • X社区推广