如何使用 10Gb 光纤连接微调 Linux 上的 TCP 性能

Question 1

在 Linux/Intel 中我将使用以下方法进行性能分析：

硬件：

turbostat
查找核心的 C/P 状态、频率、SMI 数量。[1]
cpufreq-info
查找当前驱动器、频率和调节器。
atop
寻找跨核心的中断分布
寻找上下文切换、中断。
ethtool
-S 用于统计，查找错误、丢失、溢出、错过的中断等
-k 用于卸载，启用 GRO/GSO、rss(/rps/rfs)/xps
-g 用于环大小，增加
-c 用于中断合并

核心：

就您而言，主要问题是跨核心的中断分布，因此修复它将是您最好的行动方案。

PS. 不要忘记，在这些基准测试中，内核和驱动程序/固件版本起着重要作用。

附言：你可能想安装最新的ixgbeIntel 驱动程序[4]。不要忘记阅读那里的 README 并检查脚本目录。它有很多与性能相关的提示。

Answer

在 Linux/Intel 中我将使用以下方法进行性能分析：

硬件：

turbostat
查找核心的 C/P 状态、频率、SMI 数量。[1]
cpufreq-info
查找当前驱动器、频率和调节器。
atop
寻找跨核心的中断分布
寻找上下文切换、中断。
ethtool
-S 用于统计，查找错误、丢失、溢出、错过的中断等
-k 用于卸载，启用 GRO/GSO、rss(/rps/rfs)/xps
-g 用于环大小，增加
-c 用于中断合并

核心：

就您而言，主要问题是跨核心的中断分布，因此修复它将是您最好的行动方案。

PS. 不要忘记，在这些基准测试中，内核和驱动程序/固件版本起着重要作用。

附言：你可能想安装最新的ixgbeIntel 驱动程序[4]。不要忘记阅读那里的 README 并检查脚本目录。它有很多与性能相关的提示。

Question 2

服务器的规格（品牌和型号）是否相同？您是否对 sysctl.conf 进行了任何更改？

您应该启用 irqbalance 因为您的中断仅发生在 CPU0 上。

如果你没有使用 EL6 的调整配置文件，则应根据计划选择一个接近你的工作负载的配置文件这里。

Answer

服务器的规格（品牌和型号）是否相同？您是否对 sysctl.conf 进行了任何更改？

您应该启用 irqbalance 因为您的中断仅发生在 CPU0 上。

如果你没有使用 EL6 的调整配置文件，则应根据计划选择一个接近你的工作负载的配置文件这里。

Question 3

如果您只运行一个 iperf 实例，则 6 Gb/s 的速度是可以的，因为它仅限于单 CPU 核心。同时运行两个进程应该会给您带来预期的 10Gb/s。

单向 20Mb/s 的问题看起来像是驱动程序/固件/硬件不兼容问题。

我建议您尝试以下故障排除步骤：

您的 NIC 有双端口，因此首先，尝试在两个 NIC 上进行环回速度测试。它可以帮助您确定问题所在：在服务器 A 上还是在服务器 B 上。2. 更换跳线。3. 尝试新的驱动程序。4. 升级固件。5. 更换 NIC）

Answer

如果您只运行一个 iperf 实例，则 6 Gb/s 的速度是可以的，因为它仅限于单 CPU 核心。同时运行两个进程应该会给您带来预期的 10Gb/s。

单向 20Mb/s 的问题看起来像是驱动程序/固件/硬件不兼容问题。

我建议您尝试以下故障排除步骤：

您的 NIC 有双端口，因此首先，尝试在两个 NIC 上进行环回速度测试。它可以帮助您确定问题所在：在服务器 A 上还是在服务器 B 上。2. 更换跳线。3. 尝试新的驱动程序。4. 升级固件。5. 更换 NIC）

Question 4

我会尝试禁用 LRO（大型接收卸载）...我猜你有一个打开了它的，还有一个关闭了它的。

它依赖于 NIC/驱动程序，但一般来说，当我们在环境中看到它时，我们知道我们错过了一个，然后禁用 LRO

Answer

我会尝试禁用 LRO（大型接收卸载）...我猜你有一个打开了它的，还有一个关闭了它的。

它依赖于 NIC/驱动程序，但一般来说，当我们在环境中看到它时，我们知道我们错过了一个，然后禁用 LRO

相关内容