VMware 虚拟化HA集群环境频繁出现网络异常,重启后恢复,帮忙分析一下是什么故障原因?

       VMWARE 虚拟化 HA集群环境频繁出现网络异常重启恢复,这是在实施后的两年之后出现的问题.

       环境:物理服务器4台ESXi,两个集群环境,共享存储一台,一直都是正常运行的,突然有一天就出现网络问题,宿主机无法访问,业务中断,重启ESXi主机后,网络恢复,问题消失。

       由于访问量较大,物理网卡一直处于工作状态,可所有硬件设备状态完好,日志无明显报错,问题在出现过第一次后,反复出现,只要一重启主机,问题恢复,间隔3-4天就出现一次。无法通过日志找到原因。

       联系vmware原厂,原厂说需要升级exsi版本,和服务器硬件微码。最后升级了服务器硬件微码,和exsi版本。结果只隔了一天,问题又一次出现了。

       这次并不是所有的网络都阻断,管理地址未中断,但是虚拟机任然无法连通,业务中断。在这之后,做过网络调整,管理网络和虚拟机业务网络分配到不通标准交换机中,问题出现时,同一个标准交换机内的虚拟机出现部分可以出去,外部可以访问,部分虚拟机出现网络配置中网关丢失现象,手动配置网关,依旧无法出去。

       重启虚拟机之后,部分网络会中断,部分能通。还是需要重启所有ESXi主机,才能恢复。现在ESXi版本已经是5.5.643,微码版本已经是4.0.596,服务器微码也已经升级完成。5.5 U3,问题依旧,现在只能先进行网卡硬件更换,HP NC365T,网卡驱动已经包含在vmwarelinux中,自带。不需要额外打驱动。问题无法定位。

       向各位高手大神求助,哪位能帮忙分析一下这个问题的可能性原因是什么?

参与43

6同行回答

haizdlhaizdl技术经理大连
按照您说的现象“同一个标准交换机内的虚拟机出现部分可以出去,外部可以访问,部分虚拟机出现网络配置中网关丢失现象,手动配置网关,依旧无法出去” & “重启虚拟机之后,部分网络会中断,部分能通。还是需要重启所有ESXi主机,才能恢复。”假设一个标准交换机上有若干网卡,部分可以...显示全部

按照您说的现象“同一个标准交换机内的虚拟机出现部分可以出去,外部可以访问,部分虚拟机出现网络配置中网关丢失现象,手动配置网关,依旧无法出去” & “重启虚拟机之后,部分网络会中断,部分能通。还是需要重启所有ESXi主机,才能恢复。”

假设一个标准交换机上有若干网卡,部分可以通,部分却不通。那么是不是可以推测通过某一个物理网卡的虚拟机是OK的,而虚拟网卡流量落在另外一个物理网卡上的虚拟机是Failed的。

建议你下一次遇到这种情况的时候,手动把其中一块儿网卡提出去。如果最后的结果要么全部不通,要么全部恢复。那么某块儿网卡问题的可能性就非常大了。考虑更换网卡。不要盲目相信X86机器上看到的网卡状态。

一点点参考建议,实际情况还是你最清楚。

收起
银行 · 2016-12-30
浏览7247
AcdanteAcdante技术总监SHFY
回答ZHAO HAI,也顺便说明一下目前的情况。物理机物理网卡一块,自带4个物理网口,2两分离,2个做管理网段,2个做业务网段,如果你的假设成功,那么应该是物理网卡无问题,是某个网口出现问题。现在重新更换了物理网卡,一块物理网卡,4个网口,你说的情况在我这的环境下,只能是物理网卡中的某...显示全部

回答ZHAO HAI,也顺便说明一下目前的情况。物理机物理网卡一块,自带4个物理网口,2两分离,2个做管理网段,2个做业务网段,如果你的假设成功,那么应该是物理网卡无问题,是某个网口出现问题。现在重新更换了物理网卡,一块物理网卡,4个网口,你说的情况在我这的环境下,只能是物理网卡中的某一个网口出现问题,当出现所有链路不通时,流量走向都聚集到不稳定的网口中,到出现部分可通时,两个网卡中都有流量通过;重启ESXi主机后,流量重新分布到完好的网口,业务正常。一段时间后,又会出现问题。所以,无论如何检测,原来的物理网卡得出结论是服务器上自带的物理网卡是有问题的,现在已经完成网卡更换,目前链路正常。继续观察。

收起
互联网服务 · 2016-12-30
浏览7089
AcdanteAcdante技术总监SHFY
元旦稳定度过,未出现问题。显示全部

元旦稳定度过,未出现问题。

收起
互联网服务 · 2017-01-02
浏览6729
yhsihyhsih系统运维工程师某网络公司
管理网段和业务网段是否用了独立的物理交换机?不是的话尝试一下增加一台管理网段用的物理交换机。显示全部

管理网段和业务网段是否用了独立的物理交换机?不是的话尝试一下增加一台管理网段用的物理交换机。

收起
零售/批发 · 2016-12-30
浏览6769
  • 物理交换机吗?已经更换过,一开始就怀疑是网络层面的问题,直接就更换了,测试还是一样。所以才开始在主机本身层面排查故障。
    2016-12-30
xuxindiuibxuxindiuib售后技术支持vmware
网卡驱动是tg3么,网卡驱动单独升级过么,在断网以后在上联交换机可以看到虚拟机的mac地址么,可以先从这几个方向查查显示全部

网卡驱动是tg3么,网卡驱动单独升级过么,在断网以后在上联交换机可以看到虚拟机的mac地址么,可以先从这几个方向查查

收起
系统集成 · 2016-12-30
浏览6939
  • 网卡驱动单独升过,vmware官方说明的驱动,也打过,还是会出现问题,又升级了最新的驱动,问题依旧
    2016-12-30
丁涛丁涛it技术咨询顾问fit2cloud
我在华为虚拟化平台遇到类似的问题,是不是交换机和VMware平台的虚拟网卡绑定模式有关?显示全部

我在华为虚拟化平台遇到类似的问题,是不是交换机和VMware平台的虚拟网卡绑定模式有关?

收起
互联网服务 · 2016-12-30
浏览7047
  • 如果和网卡绑定模式有关,如何做到未做任何调整的情况下,稳定运行2年,突然出现问题?
    2016-12-30
  • 基于源虚拟端口ID的路由模式
    2016-12-30

提问者

Acdante
Acdante111745
技术总监SHFY
擅长领域: 存储服务器数据库

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2016-12-30
  • 关注会员:7 人
  • 问题浏览:13404
  • 最近回答:2017-01-02
  • X社区推广