VMWARE 虚拟化 HA集群环境频繁出现网络异常重启恢复,这是在实施后的两年之后出现的问题.
环境:物理服务器4台ESXi,两个集群环境,共享存储一台,一直都是正常运行的,突然有一天就出现网络问题,宿主机无法访问,业务中断,重启ESXi主机后,网络恢复,问题消失。
由于访问量较大,物理网卡一直处于工作状态,可所有硬件设备状态完好,日志无明显报错,问题在出现过第一次后,反复出现,只要一重启主机,问题恢复,间隔3-4天就出现一次。无法通过日志找到原因。
联系vmware原厂,原厂说需要升级exsi版本,和服务器硬件微码。最后升级了服务器硬件微码,和exsi版本。结果只隔了一天,问题又一次出现了。
这次并不是所有的网络都阻断,管理地址未中断,但是虚拟机任然无法连通,业务中断。在这之后,做过网络调整,管理网络和虚拟机业务网络分配到不通标准交换机中,问题出现时,同一个标准交换机内的虚拟机出现部分可以出去,外部可以访问,部分虚拟机出现网络配置中网关丢失现象,手动配置网关,依旧无法出去。
重启虚拟机之后,部分网络会中断,部分能通。还是需要重启所有ESXi主机,才能恢复。现在ESXi版本已经是5.5.643,微码版本已经是4.0.596,服务器微码也已经升级完成。5.5 U3,问题依旧,现在只能先进行网卡硬件更换,HP NC365T,网卡驱动已经包含在vmwarelinux中,自带。不需要额外打驱动。问题无法定位。
向各位高手大神求助,哪位能帮忙分析一下这个问题的可能性原因是什么?
按照您说的现象“同一个标准交换机内的虚拟机出现部分可以出去,外部可以访问,部分虚拟机出现网络配置中网关丢失现象,手动配置网关,依旧无法出去” & “重启虚拟机之后,部分网络会中断,部分能通。还是需要重启所有ESXi主机,才能恢复。”
假设一个标准交换机上有若干网卡,部分可以通,部分却不通。那么是不是可以推测通过某一个物理网卡的虚拟机是OK的,而虚拟网卡流量落在另外一个物理网卡上的虚拟机是Failed的。
建议你下一次遇到这种情况的时候,手动把其中一块儿网卡提出去。如果最后的结果要么全部不通,要么全部恢复。那么某块儿网卡问题的可能性就非常大了。考虑更换网卡。不要盲目相信X86机器上看到的网卡状态。
一点点参考建议,实际情况还是你最清楚。
收起回答ZHAO HAI,也顺便说明一下目前的情况。物理机物理网卡一块,自带4个物理网口,2两分离,2个做管理网段,2个做业务网段,如果你的假设成功,那么应该是物理网卡无问题,是某个网口出现问题。现在重新更换了物理网卡,一块物理网卡,4个网口,你说的情况在我这的环境下,只能是物理网卡中的某一个网口出现问题,当出现所有链路不通时,流量走向都聚集到不稳定的网口中,到出现部分可通时,两个网卡中都有流量通过;重启ESXi主机后,流量重新分布到完好的网口,业务正常。一段时间后,又会出现问题。所以,无论如何检测,原来的物理网卡得出结论是服务器上自带的物理网卡是有问题的,现在已经完成网卡更换,目前链路正常。继续观察。
收起管理网段和业务网段是否用了独立的物理交换机?不是的话尝试一下增加一台管理网段用的物理交换机。
网卡驱动是tg3么,网卡驱动单独升级过么,在断网以后在上联交换机可以看到虚拟机的mac地址么,可以先从这几个方向查查