建议选择专业的容器云厂商提供专业的服务以下为我司技术专家总结的一些经验1.建议您在使用测试环境时或者是上线生产前就应当建立一个相对完善的生产环境问题应急处理办法和标准,以应对生产环境中的紧急问题情况处理。2.关于如何快速定位和解决问题,有点些太过宽泛。但是快...
显示全部建议选择专业的容器云厂商提供专业的服务
以下为我司技术专家总结的一些经验
1.建议您在使用测试环境时或者是上线生产前就应当建立一个相对完善的生产环境问题应急处理办法和标准,以应对生产环境中的紧急问题情况处理。
2.关于如何快速定位和解决问题,有点些太过宽泛。但是快速解决问题的基础是首先要对整个平台的架构和各组件的功能交互非常熟悉和有最基本的运维思路。最起码要判断这个问题是docker层面的,k8s层面的还是平台层面的。在深入去看具体组件或者资源的问题,看日志看现象看资源使用。
3.开发人员和运维人员需要具备容器知识,docker和k8s的使用和运维经验(包含组件交互原理,网络,存储,资源分配,监控,日志等)。
排查问题的思路:
- 观察问题:细致的观察问题发生时的情况,做好对问题的描述和记录
- 收集信息:尽可能的去收集问题发生时的日志信息。比如说平台日志,容器日志,应用日志。还有环境信息,内核版本,docker版本,k8s版本,网络模式等。
- 复现问题:接下来根据收集到的信息,清楚复现问题的步骤,并记录。
- 收缩范围:排查无关的因素和影响,缩小范围。
- 定位问题:把产生问题的可能原因定位在一个或几个上。这样可以通过控制变量去进一步排除问题的可能。
- 解决方案:根据这些问题可能会出现的原因,去指定一个解决方案。
- 执行方案,解决问题:要做好记录,要预留足够的时间避免新的问题的产生。
解决问题的思路:
- 是否需要做应急策略
- 考虑是否可以复现问题,如果可以复现的话记录并观察这个复现的过程,有可能在复现过程中,就可以直接定位问题发生的原因。
- 如果故障是偶发性的,是有极小概率出现的,就比较难排查,这依赖于系统是否有足够的故障期间的现场信息来决定是否可以定位原因。
- 复现后,通过已掌握的技术知识和经验基本可以确定问题产生的原因,列举出来。
- 考虑一下这些问题产生的原因是不是有优先级的关系,先去解决可能性大的原因。提升效率。
- 接下来逐一对这些问题产生的原因进行排查,并对每一个排查的过程做记录
- 如果超出所考虑的这些原因,那么需要重新回头再去看问题如何解决。
应急恢复的方法:
首先还是要保证系统的可用性
- 服务整体性能下降或异常,可以考虑重启服务;
- 应用做过变更,可以考虑是否需要回切变更;
- 资源不足,可以考虑应急扩容;
- 应用性能问题,可以考虑调整应用参数、日志参数;
- 系统漏洞问题,是否考虑升级版本
收起