1、生产环境中容器云平台的网络架构的设计和网段规划很重要。 容器云平台的网络架构的设计细节,包括多AZ可用区、DMZ网络分区、安全防火墙、NAT、SLB负载均衡器的部署、容器OVERLAY网络、虚拟化SDN 网络等,都会影响对网络运维难度的主观判断。
2、故障排查方面,这是一个团队协调的活动,除了需要熟悉上述容器云网络设计的技术骨干外,还要熟悉出故障的业务应用系统的各模块调用关系的应用运维人员,以及基础设施方面的资产监控数据、网络TAP流量数据的分析支持。 有这些架构资产和监控数据, 在实际出现网络故障时,排障团队能够快速从业务应用系统的故障表象, 逐次识别出网络流量在各拓朴节点的入站、出站的相关问题。
收起需要对容器网络的调用层次有一定的了解,比如 openshift 容器网络架构可以参考
https://docs.openshift.com/container-platform/3.11/admin_guide/sdn_troubleshooting.html
日常运维基本是要去监控关键的网络组件的状态去确定是否工作正常。
而异常情况下的问题分析就需要通过 tcpdump 进行抓包分析。
收起