VMWARE 虚拟化 HA集群环境频繁出现网络异常重启恢复,这是在实施后的两年之后出现的问题.
环境:物理服务器4台ESXi,两个集群环境,共享存储一台,一直都是正常运行的,突然有一天就出现网络问题,宿主机无法访问,业务中断,重启ESXi主机后,网络恢复,问题消失。
由于访问量较大,物理网卡一直处于工作状态,可所有硬件设备状态完好,日志无明显报错,问题在出现过第一次后,反复出现,只要一重启主机,问题恢复,间隔3-4天就出现一次。无法通过日志找到原因。
联系vmware原厂,原厂说需要升级exsi版本,和服务器硬件微码。最后升级了服务器硬件微码,和exsi版本。结果只隔了一天,问题又一次出现了。
这次并不是所有的网络都阻断,管理地址未中断,但是虚拟机任然无法连通,业务中断。在这之后,做过网络调整,管理网络和虚拟机业务网络分配到不通标准交换机中,问题出现时,同一个标准交换机内的虚拟机出现部分可以出去,外部可以访问,部分虚拟机出现网络配置中网关丢失现象,手动配置网关,依旧无法出去。
重启虚拟机之后,部分网络会中断,部分能通。还是需要重启所有ESXi主机,才能恢复。现在ESXi版本已经是5.5.643,微码版本已经是4.0.596,服务器微码也已经升级完成。5.5 U3,问题依旧,现在只能先进行网卡硬件更换,HP NC365T,网卡驱动已经包含在vmwarelinux中,自带。不需要额外打驱动。问题无法定位。
向各位高手大神求助,哪位能帮忙分析一下这个问题的可能性原因是什么?
收起