防火墙导致的宿主机失联案例

环境介绍:

多套vmware虚拟化集群组成一个VDC,分别位于不同的安全隔离区内,VC处于一个独立的安全隔离区内,每套虚拟化集群当中有若干宿主机。也就是说宿主机和VC分别属于不同的安全隔离区,分属不同的网段。

问题描述:

虚拟化基础架构部署全部完毕,运行一致良好。突然间有一天发现其中一个安全隔离区内的宿主机有一个掉线了。还没等我来的及区调查原因,这个宿主机又恢复正常了。

解决过程:

第一反应,别的先别说,不可再现的问题,先看日志吧。结果发现其中一个宿主机掉线非常频繁,其他几个宿主机偶尔都会发生掉线现象。而且现象只发生在其中一个安全隔离区内,其他隔离区内没有此现象。

第二反应,问问应用那边,看看有没有察觉到异常。结果没有。

第三反应,那不用多想了,这个离线一定是宿主机跟VC之间的通讯断掉了,没有影响到正常的业务系统。

第四反应,看看日志,第一感觉没啥有价值的线索。为啥其他集群没事儿呢,想想这个区和其他区的区别在哪里?同一个VC,只不过分属不同的安全隔离区而已,只不过这个区属于互联网区,网络层多了几层隔离而已。

第五反应,一方面,收集日志发给厂商。另外一方面,交叉测试,于是乎,

交叉换网卡,还是一个德行。

交换换交换机,好像好一点,但是还会出现类似问题。

第六反应,那剩下的区别就在防火墙上了,防火墙这个区用的是莫某家的,跟其他不一样。不至于吧,虽然国产,但是也经得起推敲啊。于是把网络的运维工程师以及厂商叫过来抓包,抓了好几天,问题没有重现。等吧,Vmware那边终于给回复了,说是VC和宿主机的通讯被周期性阻断了。

第七反应,多半是防火墙上的设置,找吧。对比两家厂商的防火墙设置,终于发现了一个配置“Keep Alive”,问网络厂商是不是可以像别人家的防火墙把这个开关关掉。回答说不能。靠,为什么?回答说,产品默认设置。问曰,你们有没有在别家跟虚拟化产品配合过?回答曰,配合过,没这个问题啊。啥也别说了,升级给网络后线吧。过了几天,回复了,“Keep Alive”在防火墙上可以吧UDP的关掉,TCP的不能关掉。OK,要的就是这句话,把UDP关掉之后,观察了N天,一切OK。

问题总结:

对于这个案例来讲,更多的关注点是在虚拟化架构与其他厂商设备配合过程中的问题。一个很不经意的配置可能会引起很严重的问题。大家多多交流,上下游交流,同游交流,不仅仅知道自己的一亩三分地,也同时知道他人的一幕三分地,对于实施来讲就会带来更大的专家价值。

参与13

4同行回答

AcdanteAcdante技术总监SHFY
可以的,有时候是会这样的。需要多方面综合排查问题。显示全部

可以的,有时候是会这样的。需要多方面综合排查问题。

收起
互联网服务 · 2016-12-12
浏览1365
powertiandipowertiandi联盟成员系统架构师李宁(中国)体育用品有限公司
不做第一个吃螃蟹的人显示全部

不做第一个吃螃蟹的人

收起
互联网服务 · 2016-12-12
浏览1356
yujin2010goodyujin2010good系统工程师大型零售巨头
这个的却是不好说了,根据具体环境去排查显示全部

这个的却是不好说了,根据具体环境去排查

收起
互联网服务 · 2016-12-13
浏览1403
lisen222lisen222其它泰德制药
我们也遇到过类似的问题,是防火墙分区问题显示全部

我们也遇到过类似的问题,是防火墙分区问题

收起
医药 · 2016-12-12
浏览1508

提问者

haizdl
haizdl101634
技术经理大连
擅长领域: 灾备存储服务器

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2016-12-08
  • 关注会员:7 人
  • 问题浏览:4915
  • 最近回答:2016-12-13
  • X社区推广