我用一个 Linux 盒子替换了我的消费级无线路由器,该盒子在主板上有一个四千兆位 NIC PCIe 卡和一个千兆位 NIC(用于 WAN)。在打开 IP 转发、伪装(通过iptables
)并在四个 LAN 接口上设置子网后,我运行了一些速度测试。
$ ip route
default dev ppp0 scope link
10.0.0.0/16 dev enp3s0f0 proto kernel scope link src 10.0.0.1
10.64.0.0/16 dev enp3s0f1 proto kernel scope link src 10.64.0.1
10.192.0.0/16 dev enp4s0f1 proto kernel scope link src 10.192.0.1
aaa.bbb.ccc.ddd dev ppp0 proto kernel scope link src www.xxx.yyy.zzz
从 LAN 子网上的无线设备到 WAN 上的速度测试服务器,我可以获得向 ISP 支付的全部 40 Mbps / 5 Mbps 速度。
从路由器主机到有线 LAN 主机使用
iperf3
我可以连续几分钟保持 930+ Mbps。从一个 LAN 子网上的有线设备到另一个 LAN 子网上的有线设备,
iperf3
最初几秒钟我可以获得 80-95 Mbps,但很快降至零。从一个 LAN 子网上的有线设备到另一个 LAN 子网上的有线设备,
iperf3
目标比特率为 20 Mbps,我看到了类似的结果(见最后的更新),但可以维持大约 10 Mpbs
。
Connecting to host 10.0.0.2, port 5201
[ 5] local 10.192.128.3 port 35620 connected to 10.0.0.2 port 5201
[ ID] Interval Transfer Bitrate Retr Cwnd
[ 5] 0.00-1.00 sec 10.2 MBytes 85.9 Mbits/sec 0 73.5 KBytes
[ 5] 1.00-2.00 sec 9.01 MBytes 75.6 Mbits/sec 0 82.0 KBytes
[ 5] 2.00-3.00 sec 8.26 MBytes 69.3 Mbits/sec 0 79.2 KBytes
[ 5] 3.00-4.00 sec 9.01 MBytes 75.6 Mbits/sec 0 73.5 KBytes
[ 5] 4.00-5.00 sec 5.28 MBytes 44.3 Mbits/sec 1 1.41 KBytes
[ 5] 5.00-6.00 sec 0.00 Bytes 0.00 bits/sec 1 1.41 KBytes
[ 5] 6.00-7.00 sec 0.00 Bytes 0.00 bits/sec 1 1.41 KBytes
[ 5] 7.00-8.00 sec 0.00 Bytes 0.00 bits/sec 1 1.41 KBytes
[ 5] 8.00-9.00 sec 0.00 Bytes 0.00 bits/sec 0 1.41 KBytes
^C[ 5] 10.00-13.63 sec 0.00 Bytes 0.00 bits/sec 1 1.41 KBytes
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval Transfer Bitrate Retr
[ 5] 0.00-13.63 sec 41.8 MBytes 25.7 Mbits/sec 5 sender
[ 5] 0.00-13.63 sec 0.00 Bytes 0.00 bits/sec receiver
iperf3: interrupt - the client has terminated
这表明在子网之间转发数据包时存在一些问题。我首先确保我的iptables
规则尽可能简单:
-t nat -A POSTROUTING -o ppp0 -j MASQUERADE
# WAN connection is PPPoE and VLAN tagged
-t filter -A FORWARD -o ppp0 -p tcp --tcp-flags SYN,RST SYN -j TCPMSS --clamp-mss-to-pmtu
转储iptables
状态我发现这两条规则的数据包数量都很低。
接下来我检查了数据包丢失情况。似乎确实有少量但持续的数据包丢失/重传。
$ sudo netstat -s | egrep -i 'retransmit|drop'
498 outgoing packets dropped
25848 fast retransmits
然后我想也许有一个缓冲区或队列已满,数据包被丢弃了。我计算了平均带宽延迟乘积,并将其与保留内存进行了比较。
$ sudo ping -f 10.0.0.2 -s $((1500-28))
PING 10.0.0.2 (10.0.0.2) 1472(1500) bytes of data.
.^C
--- 10.0.0.2 ping statistics ---
9036 packets transmitted, 9035 received, 0% packet loss, time 26512ms
rtt min/avg/max/mdev = 1.742/2.817/12.057/0.758 ms, pipe 2, ipg/ewma 2.934/3.091 ms
$ echo "1*(1024^3) * 0.003" | bc
3221225.472
$ cat /proc/sys/net/ipv4/tcp_mem
18396 24529 36792
$ getconf PAGESIZE
4096
这似乎足够了。所以现在我有点卡住了。我tcpdump
在iperf3
客户端上运行了它,可以看到事情进展顺利。然后我看到一段很长(近 250 毫秒)的沉默期,然后出现大量重传和重复确认。
由于我可以从 WAN 获得足够的下载速度,因此我不怀疑板载 NIC 有问题。我正在寻求帮助来诊断这个四 NIC(详细信息如下)以及可能是一个哑 2 层千兆交换机(Netgear GS-108)和任何其他可能妨碍的内核配置。我怀疑是交换机的问题,因为以前从未出现过问题,我可以保持从路由器环回到该子网的速度。似乎只有子网间性能受到影响。
*-network:0
description: Ethernet interface
product: 82571EB Gigabit Ethernet Controller (Copper)
vendor: Intel Corporation
physical id: 0
bus info: pci@0000:03:00.0
logical name: enp3s0f0
version: 06
serial: 00:26:55:xx:xx:xx
size: 1Gbit/s
capacity: 1Gbit/s
width: 32 bits
clock: 33MHz
capabilities: pm msi pciexpress bus_master cap_list ethernet physical tp 10bt 10bt-fd 100bt 100bt-fd 1000bt-fd autonegotiation
configuration: autonegotiation=on broadcast=yes driver=e1000e driverversion=3.2.6-k duplex=full firmware=5.12-2 ip=10.0.0.1 latency=0 link=yes multicast=yes port=twisted pair speed=1Gbit/s
resources: irq:24 memory:fe920000-fe93ffff memory:fe880000-fe8fffff ioport:d020(size=32)
更新:
$ iperf3 -b 20m -c 10.0.0.2
Connecting to host 10.0.0.2, port 5201
[ 5] local 10.192.128.3 port 36554 connected to 10.0.0.2 port 5201
[ ID] Interval Transfer Bitrate Retr Cwnd
[ 5] 0.00-1.00 sec 2.49 MBytes 20.9 Mbits/sec 0 158 KBytes
[ 5] 1.00-2.00 sec 2.38 MBytes 19.9 Mbits/sec 0 150 KBytes
[ 5] 2.00-3.00 sec 2.38 MBytes 19.9 Mbits/sec 1 133 KBytes
[ 5] 3.00-4.00 sec 2.38 MBytes 19.9 Mbits/sec 0 73.5 KBytes
[ 5] 4.00-5.00 sec 2.38 MBytes 19.9 Mbits/sec 0 70.7 KBytes
[ 5] 5.00-6.00 sec 1.12 MBytes 9.44 Mbits/sec 2 1.41 KBytes
[ 5] 6.00-7.00 sec 0.00 Bytes 0.00 bits/sec 2 1.41 KBytes
[ 5] 7.00-8.00 sec 0.00 Bytes 0.00 bits/sec 0 1.41 KBytes
[ 5] 8.00-9.00 sec 0.00 Bytes 0.00 bits/sec 1 1.41 KBytes
iperf3: error - control socket has closed unexpectedly
$ iperf3 -b 10m -c 10.0.0.2
Connecting to host 10.0.0.2, port 5201
[ 5] local 10.192.128.3 port 36564 connected to 10.0.0.2 port 5201
[ ID] Interval Transfer Bitrate Retr Cwnd
[ 5] 0.00-1.00 sec 1.24 MBytes 10.4 Mbits/sec 0 201 KBytes
[ 5] 1.00-2.00 sec 1.25 MBytes 10.5 Mbits/sec 0 118 KBytes
[ 5] 2.00-3.00 sec 1.12 MBytes 9.44 Mbits/sec 0 127 KBytes
[ 5] 3.00-4.00 sec 1.25 MBytes 10.5 Mbits/sec 0 107 KBytes
[ 5] 4.00-5.00 sec 1.12 MBytes 9.44 Mbits/sec 0 110 KBytes
[ 5] 5.00-6.00 sec 1.25 MBytes 10.5 Mbits/sec 0 90.0 KBytes
[ 5] 6.00-7.00 sec 1.12 MBytes 9.44 Mbits/sec 0 87.2 KBytes
[ 5] 7.00-8.00 sec 1.25 MBytes 10.5 Mbits/sec 0 81.6 KBytes
[ 5] 8.00-9.00 sec 1.12 MBytes 9.44 Mbits/sec 0 78.8 KBytes
[ 5] 9.00-10.00 sec 1.25 MBytes 10.5 Mbits/sec 0 112 KBytes
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval Transfer Bitrate Retr
[ 5] 0.00-10.00 sec 12.0 MBytes 10.1 Mbits/sec 0 sender
[ 5] 0.00-10.04 sec 12.0 MBytes 10.0 Mbits/sec receiver
iperf Done.
答案1
感谢@Pedro 帮助我深入研究。最初我以为这是一个坏硬件,但在用另一个替换它之后,我确定这是一个驱动程序问题。我仍在深入研究,以找出这是否是一个已经报告过的错误(以及是否存在修复)。与此同时,我确实找到了一个serverfault 问题链接到错误报告建议关闭几个卸载功能。这至少让我从 0 bps 稳定地升至 ~270 Mbps。虽然远远低于它能够达到的 ~940 Mbps,但总比什么都没有好,因为我还在继续研究。
ethtool -K eth0 gso off gro off tso off