haizdl
作者haizdl·2016-12-13 16:21
技术经理·大连

防火墙导致的宿主机失联案例

字数 1011阅读 1574评论 0赞 1

环境介绍:
多套vmware虚拟化集群组成一个VDC,分别位于不同的安全隔离区内,VC处于一个独立的安全隔离区内,每套虚拟化集群当中有若干宿主机。也就是说宿主机和VC分别属于不同的安全隔离区,分属不同的网段。

问题描述:
虚拟化基础架构部署全部完毕,运行一致良好。突然间有一天发现其中一个安全隔离区内的宿主机有一个掉线了。还没等我来的及区调查原因,这个宿主机又恢复正常了。

解决过程:
第一反应,别的先别说,不可再现的问题,先看日志吧。结果发现其中一个宿主机掉线非常频繁,其他几个宿主机偶尔都会发生掉线现象。而且现象只发生在其中一个安全隔离区内,其他隔离区内没有此现象。

第二反应,问问应用那边,看看有没有察觉到异常。结果没有。

第三反应,那不用多想了,这个离线一定是宿主机跟VC之间的通讯断掉了,没有影响到正常的业务系统。

第四反应,看看日志,第一感觉没啥有价值的线索。为啥其他集群没事儿呢,想想这个区和其他区的区别在哪里?同一个VC,只不过分属不同的安全隔离区而已,只不过这个区属于互联网区,网络层多了几层隔离而已。

第五反应,一方面,收集日志发给厂商。另外一方面,交叉测试,于是乎,

交叉换网卡,还是一个德行。

交换换交换机,好像好一点,但是还会出现类似问题。

第六反应,那剩下的区别就在防火墙上了,防火墙这个区用的是莫某家的,跟其他不一样。不至于吧,虽然国产,但是也经得起推敲啊。于是把网络的运维工程师以及厂商叫过来抓包,抓了好几天,问题没有重现。等吧,Vmware那边终于给回复了,说是VC和宿主机的通讯被周期性阻断了。

第七反应,多半是防火墙上的设置,找吧。对比两家厂商的防火墙设置,终于发现了一个配置“Keep Alive”,问网络厂商是不是可以像别人家的防火墙把这个开关关掉。回答说不能。靠,为什么?回答说,产品默认设置。问曰,你们有没有在别家跟虚拟化产品配合过?回答曰,配合过,没这个问题啊。啥也别说了,升级给网络后线吧。过了几天,回复了,“Keep Alive”在防火墙上可以吧UDP的关掉,TCP的不能关掉。OK,要的就是这句话,把UDP关掉之后,观察了N天,一切OK。

问题总结:
对于这个案例来讲,更多的关注点是在虚拟化架构与其他厂商设备配合过程中的问题。一个很不经意的配置可能会引起很严重的问题。大家多多交流,上下游交流,同游交流,不仅仅知道自己的一亩三分地,也同时知道他人的一幕三分地,对于实施来讲就会带来更大的专家价值。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

1

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广