系统调用导致网络收包卡顿的问题分析

2024-8-24

前言

G行某平台类应用系统提供高并发、低延迟的服务请求，该系统的的响应时间在1毫秒左右，目前最大TPS在2.5万左右，为保证该系统的快速响应，系统设置的超时时间为30毫秒。在一次巡检中发现，该系统的几台服务器超时交易笔数在逐渐增加，为避免系统运行风险，协调网络、操作系统等专家一同分析，在分析过程中补充学习了大量Linux操作系统内核的知识，现将分析过程及其中用到的知识点记录下来，以便为解决类似的问题提供一个通用的解决思路。

一、应用系统超时现象

外部系统将请求发送到前端服务，前端服务进行业务逻辑后重新组装报文，将请求发送到后端服务。交易处理超时体现在前端服务对后台服务的请求上，但是根据网络设备的镜像网络包分析，后端服务的处置时间没有异常，前端发送给后端的请求，后端都可以快速的处理。因此问题还是出现在前端服务上。

系统调用导致网络收包卡顿的问题分析插图亿华云

图1 系统逻辑架构

由于该系统的交易量大、响应时间低，所以对处理过程的日志记录较少，根据前端服务的应用日志无法定位根本原因。针对前端服务到后台服务的请求，选一段超时交易较多的时间段的网络镜像包进行分析。发现超时交易集中在两个固定的时间点，分别为：11:29:4.200，超时9笔，平均TCPack_rtt为5毫秒；11:29:54.100，超时2笔，平均TCPack_rtt为6毫秒，在这两个时间段超时交易的rtt都大于30毫秒，没有超时的交易也有部分ack的rtt相对较长。其他正常交易时间段的ack_rtt在0.06毫秒左右。

系统调用导致网络收包卡顿的问题分析插图1亿华云

图2 网络镜像包异常现象

根据这个现象初步怀疑在网络收发包上出现了拥堵问题，操作系统网络协议栈对收到的网络包没有及时处理。具体处理过程为前端发送请求到后端服务，后端服务立即进行了响应并返回响应包，由于协议栈没有及时处理响应包，导致相应的ack包没有及时返回，同时导致前端服务没有及时收到后端服务的返回，从而出现超时的现象。

为验证怀疑的方向，将一台服务器进行物理重启，重启后超时现象消失；同时将另外一台服务器只重启应用系统，超时现象没有出现缓解。因此可以确定交易的超时现象是由于操作系统的原因导致，和应用系统的处理性能无关。

二、问题排查

由于怀疑和操作系统的协议栈处理有关，为便于问题排查，同时避免对生产的稳定运行造成影响，我们使用perf和hping3进行异常的复现和问题分析。perf是Linux的一款性能分析工具，能够进行系统内核函数级和指令级的热点查找，可以用来分析程序中热点函数的CPU占用率，从而定位性能瓶颈。Hping3是一个开源网络工具，通过rawSocket直接组装icmp、udp、tcp报文，并记录对方服务器的ack响应时间。

系统调用导致网络收包卡顿的问题分析插图2亿华云

图3 问题排查方案

分析方案是找同子网的另外一台服务器部署hping3工具，向异常服务器不停的发送tcp报文，并记录ack返回出现延迟的时间点。在异常的服务器上部署perf工具，跟踪操作系统的内核调用，以便发现异常点。通过hping3每1毫秒发送一个网络包，记录其收到ack包的时间，可以发现在1650140557这个时间点出现大量rtt时间较长的情况，分析perf工具采集的内核调用数据，可以发现在相同的时间点存在大量ss进程发起的请求，当时正在执行的系统调用函数为read，根据调用栈proc_reg_read可以定位为程序正在读取/proc目录下的文件内容。

系统调用导致网络收包卡顿的问题分析插图3亿华云