jxnxsdengyu
作者jxnxsdengyu课题专家组·2020-04-07 17:31
系统工程师·江西农信

故障处理---TCP KeepAlive

字数 2928阅读 5020评论 1赞 3

实际生产环境中,不时会有网络连接异常中断导致应用功能异常的问题出现。这往往是因为TCP连接长期空闲,超过防火墙允许的超时时间所致,使用TCP KeepAlive是解决问题的方法之一,主要有两部分工作:
1、应用创建TCP连接时启用SO_KEEPALIVE
2、操作系统TCP KeepAlive参数与网络防火墙配置匹配,关键是保证TCP保活报文发送间隔时间必须小于网络防火墙超时时间

Socket启用SO_KEEPALIVE

应用代码中应确保服务端和客户端至少一方启用KeepAlive:

setsockopt(s, SOL_SOCKET, SO_KEEPALIVE, &optval, optlen) < 0)

AIX检查方法

netstat -ano | more
Active Internet connections (including servers)
Proto Recv-Q Send-Q  Local Address          Foreign Address        (state)
tcp4       0      0  10.0.125.64.23         10.25.171.189.59853    ESTABLISHED

         so_options: (REUSEADDR|KEEPALIVE|OOBINLINE) 
         so_state: (ISCONNECTED|NBIO) 
         timeo:0 uid:0
         so_special: (NOUAREA|LOCKABLE|EXTPRIV|MEMCOMPRESS|DISABLE) 
         so_special2: (PROC) 
         sndbuf: 
                 hiwat:65535 lowat:16383 mbcnt:0 mbmax:262140
                 sb_flags: (SEL|NOINTR|INHERIT|NOTIFY) 
         rcvbuf: 
                 hiwat:262800 lowat:1 mbcnt:0 mbmax:1051200
                 sb_flags: (SEL|NOINTR|INHERIT|NOTIFY) 
         TCP:
         mss:1460  flags: (RFC1323|SACK_PROCESS|SACK_GENERATE|LARGESEND|VIRTUAL_LARGESEND|SENT_LS|RCVD_LS|COPYFLAGS)

so_options一行有KEEPALIVE即为启用

Linux检查方法

[wangzj@localhost ~]$ ss -eet
State      Recv-Q Send-Q                   Local Address:Port                  Peer Address:Port   
ESTAB      0      0                        10.0.122.218:ssh                    10.25.171.238:53822    timer:(keepalive,33min,0) ino:270413 sk:ffff880131c1da00 <->                                                                
ESTAB      0      0                        10.0.122.218:ssh                    10.0.122.218:54599    ino:400032 sk:ffff880131c1bc00 <->

第一个连接启用了keepalive,第二个没有。

操作系统TCP KeepAlive参数

参数说明

Linux

TCP KeepAlive参数分别为tcp_keepalive_intvl、tcp_keepalive_time、tcp_keepalive_probes

[root@localhost ~]# sysctl -a | grep keep
net.ipv4.tcp_keepalive_intvl = 75
net.ipv4.tcp_keepalive_probes = 9
net.ipv4.tcp_keepalive_time = 7200

AIX

对应参数为tcp_keepintvl、tcp_keepidle、tcp_keepcnt

[/home/wangzj]> no -a | grep tcp_keep
              tcp_keepcnt = 8
             tcp_keepidle = 14400
            tcp_keepintvl = 150

tcp_keepalive_time(tcp_keepidle)为对一个连接进行第一次有效性探测之前运行的最大非活跃时间间隔,或者探测成功后进行下一次探测的时间间隔。

tcp_keepalive_intvl(tcp_keepintvl)为探测失败后发起下一次探测的时间间隔。

tcp_keepalive_probes(tcp_keepcnt)为关闭一个非活跃连接之前探测失败的最大次数。

注意:linux平台下三个参数的单位为秒,AIX平台下单位为0.5秒。tcp_keepalive_time(tcp_keepidle)即为最大TCP保活报文发送间隔时间,需保证小于网络防火墙超时时间。

参数修改

Linux

临时将tcp_keepalive_intvl、tcp_keepalive_time、tcp_keepalive_probes分别修改为30秒、1800秒、5次,命令如下:

#sysctl -w net.ipv4.tcp_keepalive_intvl=30
#sysctl -w net.ipv4.tcp_keepalive_time=1800
#sysctl -w net.ipv4.tcp_keepalive_probes=5

对所有连接包括已建连接立即生效,但如果从较大值(180)调整到较小值(30)需要等待原计时结束后才能生效,即最长需要等待一个原计时周期(间隔周期180秒)。需永久生效应将参数写入/etc/sysctl.conf文件。

AIX

将tcp_keepalive_intvl、tcp_keepidle、tcp_keepcnt 分别修改为30秒、1800秒、5次,命令如下:

no -p -o tcp_keepcnt=5
no -p -o tcp_keepidle=3600
no -p -o tcp_keepintvl=60



如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

3

添加新评论1 条评论

happyfeelinghappyfeeling网络天分
2020-04-07 17:47
给力!
Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广