Openshift中关于系统运维中故障管理有哪些方法和手段?

容器化以后,我的理解就拆分成了三层硬件层, 容器层 ,应用层
各个层如何做横向以及性能管理和故障发现有哪些快速定位手段?
纵向的跨层故障关联如何实现?

参与4

1同行回答
全部行业
全部行业 软件开发
|
按赞同排序
按时间排序

1. 就OpenShift容器云平台而言，监控是采用了普罗米修斯和Grafana进行系统监控的。

每个节点上都运行一个Node-Exporter的进程，负责监测主机节点的CPU使用率，CPU负载，内存使用率，磁盘空间使用率，磁盘I/O，网络流量，系统进程数等；
同时节点上另一个进程Kube-state-metrics负责获取Kubernetes对象相关信息，比如pod的CPU使用率，CPU负载，内存使用等；
普罗米修斯通过HTTP采取上述两个进程暴露的信息，存放到时序数据库中去，而 Grafana 负责显示监控信息。
2. 普罗米修斯和Grafana 本身已经内置对硬件和容器的监控，我们也可以扩展增加对应用的监控。
3. 普罗米修斯AlertManager可以根据获取的指标信息发起web hook请求，从而达到自动通知目的（可与已有告警系统集成）
4. 如果底层的硬件坏了比如服务器彻底坏了，openshift能够重新调度所有的Pod到其他节点。如果部分硬件坏掉，OpenShift也可以根据资源使用状况调度一些pod去其他节点。
5. pod如果崩溃或死掉，OpenShift/K8S的LivenessProbe会失败，从而创建pod.
6. 应用本身的日志应该用EFK统一管理，可以帮助故障分析。

软件开发 · 2019-12-26