reset是什么意思(JAVA 线上故障排查完整套路)-周公解梦-零零导航工具

您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识

reset是什么意思(JAVA 线上故障排查完整套路)

内存,问题,队列reset是什么意思(JAVA 线上故障排查完整套路)

发布时间：2016-12-08加入收藏来源：互联网点击：

上面看到Send-Q 表示第三列的listen端口上的全连接队列最大为5，第一列Recv-Q为全连接队列当前使用了多少。

接着我们看看怎么设置全连接、半连接队列大小吧：

全连接队列的大小取决于min(backlog, somaxconn)。backlog是在socket创建的时候传入的，somaxconn是一个os级别的系统参数。而半连接队列的大小取决于max(64, /proc/sys/net/ipv4/tcp_max_syn_backlog)。

在日常开发中，我们往往使用servlet容器作为服务端，所以我们有时候也需要容器的连接队列大小。在tomcat中backlog叫做acceptCount，在jetty里面则是acceptQueueSize。

RST包表示连接重置，用于关闭一些无用的连接，通常表示异常关闭，区别于四次挥手。

在实际开发中，我们往往会看到connection reset / connection reset by peer错误，这种情况就是RST包导致的。

如果像不存在的端口发出建立连接SYN请求，那么服务端发现自己并没有这个端口则会直接返回一个RST报文，用于中断连接。

一般来说，正常的连接关闭都是需要通过FIN报文实现，然而我们也可以用RST报文来代替FIN，表示直接终止连接。实际开发中，可设置SO_LINGER数值来控制，这种往往是故意的，来跳过TIMED_WAIT，提供交互效率，不闲就慎用。

客户端或服务端有一边发生了异常，该方向对端发送RST以告知关闭连接

我们上面讲的tcp队列溢出发送RST包其实也是属于这一种。这种往往是由于某些原因，一方无法再能正常处理请求连接了(比如程序崩了，队列满了)，从而告知另一方关闭连接。

接收到的TCP报文不在已知的TCP连接内

比如，一方机器由于网络实在太差TCP报文失踪了，另一方关闭了该连接，然后过了许久收到了之前失踪的TCP报文，但由于对应的TCP连接已不存在，那么会直接发一个RST包以便开启新的连接。

一方长期未收到另一方的确认报文，在一定时间或重传次数后发出RST报文

这种大多也和网络环境相关了，网络环境差可能会导致更多的RST报文。

之前说过RST报文多会导致程序报错，在一个已关闭的连接上读操作会报connection reset，而在一个已关闭的连接上写操作则会报connection reset by peer。通常我们可能还会看到broken pipe错误，这是管道层面的错误，表示对已关闭的管道进行读写，往往是在收到RST，报出connection reset错后继续读写数据报的错，这个在glibc源码注释中也有介绍。

我们在排查故障时候怎么确定有RST包的存在呢？当然是使用tcpdump命令进行抓包，并使用wireshark进行简单分析了。tcpdump -i en0 tcp -w xxx.cap，en0表示监听的网卡。

接下来我们通过wireshark打开抓到的包，可能就能看到如下图所示，红色的就表示RST包了。

TIME_WAIT和CLOSE_WAIT是啥意思相信大家都知道。

在线上时，我们可以直接用命令netstat -n | awk '/^tcp/ { S[$NF]} END {for(a in S) print a, S[a]}'来查看time-wait和close_wait的数量

用ss命令会更快ss -ant | awk '{ S[$1]} END {for(a in S) print a, S[a]}'

time_wait的存在一是为了丢失的数据包被后面连接复用，二是为了在2MSL的时间范围内正常关闭连接。它的存在其实会大大减少RST包的出现。

过多的time_wait在短连接频繁的场景比较容易出现。这种情况可以在服务端做一些内核参数调优:

#表示开启重用。允许将TIME-WAIT sockets重新用于新的TCP连接，默认为0，表示关闭net.ipv4.tcp_tw_reuse = 1#表示开启TCP连接中TIME-WAIT sockets的快速回收，默认为0，表示关闭net.ipv4.tcp_tw_recycle = 1

当然我们不要忘记在NAT环境下因为时间戳错乱导致数据包被拒绝的坑了，另外的办法就是改小tcp_max_tw_buckets，超过这个数的time_wait都会被干掉，不过这也会导致报time wait bucket table overflow的错。

close_wait往往都是因为应用程序写的有问题，没有在ACK后再次发起FIN报文。close_wait出现的概率甚至比time_wait要更高，后果也更严重。往往是由于某个地方阻塞住了，没有正常关闭连接，从而渐渐地消耗完所有的线程。

想要定位这类问题，最好是通过jstack来分析线程堆栈来排查问题，具体可参考上述章节。这里仅举一个例子。

开发同学说应用上线后CLOSE_WAIT就一直增多，直到挂掉为止，jstack后找到比较可疑的堆栈是大部分线程都卡在了countdownlatch.await方法，找开发同学了解后得知使用了多线程但是确没有catch异常，修改后发现异常仅仅是最简单的升级sdk后常出现的class not found。

本文到此结束，希望对大家有所帮助呢。

3/3 首页上一页 1 2 3

上一篇：qq邮箱申请(新发现，QQ邮箱终于支持微信注册)

下一篇：返回列表

内存问题队列

相关链接
工资薪金个税计算办法(企业工资薪金及职工福利费企业 2020-12-06 如何查手机剩余流量(手机流量信号差、不够用？这个小东 2020-12-06 企业税费怎么计算(总公司异地设分公司涉及那些税费，财 2020-12-06 企业微信解绑微信账号(苦恼很久的问题终于解决了，终于 2020-12-06 苹果手机微信拍照延迟(果粉开心！苹果终于出手，iOS悄悄更 2020-12-06 梦见被蟒蛇咬了(经常做胎梦有原因，别只想到胎儿性别，这3 2020-12-06 教师如何做课题(将“问题”提炼为“课题”？教师应该怎 2020-12-06 脸颊两边长斑(关于斑的问题，还有哪些是你不知道的？) 2020-12-06 离职补偿金个税计算器2022(离职补偿相关财税问题探析) 2020-12-06 脖子喜欢出汗是什么原因(天天大汗淋漓，一动满脖子汗，啥 2020-12-06

网友回复（共有 0 条回复）

李镇西	窦桂梅	魏书生	高考作文	中考作文	励志故事	鬼故事
民间故事	神话故事	历史故事	诗歌大全	经典散文	人教版:部编本:一年级语文
人教版:部编本:二年级语文		人教版:部编本:三年级语文		人教版课标本第一册:一年级语文上册

您现在的位置: 首页 > 网站导航收录 > 百科知识百科知识

相关链接