Openshift中关于系统运维中故障管理有哪些方法和手段?

容器化以后,我的理解就拆分成了三层   硬件层, 容器层 ,应用层   
各个层如何做横向以及性能管理和故障发现有哪些快速定位手段? 
纵向的跨层故障关联如何实现? 

参与4

1同行回答

1. 就OpenShift容器云平台而言,监控是采用了普罗米修斯和Grafana进行系统监控的。每个节点上都运行一个Node-Exporter的进程,负责监测主机节点的CPU使用率,CPU负载,内存使用率,磁盘空间使用率,磁盘I/O,网络流量,系统进程数等;同时节点上另一个进程Kube-state-metrics负责获取Kube...显示全部

1. 就OpenShift容器云平台而言,监控是采用了普罗米修斯和Grafana进行系统监控的。

  • 每个节点上都运行一个Node-Exporter的进程,负责监测主机节点的CPU使用率,CPU负载,内存使用率,磁盘空间使用率,磁盘I/O,网络流量,系统进程数等;
  • 同时节点上另一个进程Kube-state-metrics负责获取Kubernetes对象相关信息,比如pod的CPU使用率,CPU负载,内存使用等;
  • 普罗米修斯通过HTTP采取上述两个进程暴露的信息,存放到时序数据库中去,而 Grafana 负责显示监控信息。
    2.  普罗米修斯和Grafana 本身已经内置对硬件和容器的监控,我们也可以扩展增加对应用的监控。
    3. 普罗米修斯AlertManager可以根据获取的指标信息发起web hook请求,从而达到自动通知目的(可与已有告警系统集成)
    4. 如果底层的硬件坏了比如服务器彻底坏了,openshift能够重新调度所有的Pod到其他节点。如果部分硬件坏掉,OpenShift也可以根据资源使用状况调度一些pod去其他节点。
    5. pod如果崩溃或死掉,OpenShift/K8S的LivenessProbe会失败,从而创建pod.
    6. 应用本身的日志应该用EFK统一管理,可以帮助故障分析。
收起
软件开发 · 2019-12-26
浏览1914

提问者

redmuc
系统运维工程师江苏联通
擅长领域: 服务器分布式系统存储

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2019-12-26
  • 关注会员:2 人
  • 问题浏览:2885
  • 最近回答:2019-12-26
  • X社区推广