为什么拥有更多更快的内核反而会使我的多线程软件变得更慢？

Question 1

当多个插槽大幅降低性能时，肯定看起来像是 NUMA 效应。

perf非常有用。在性能报告中，您可以看到native_queued_spin_lock_slowpath占用了 35%，这似乎对您的并发代码来说是很大的开销。如果您对并发代码不是很了解，那么棘手的部分就是可视化什么在调用什么。

git clone https://github.com/brendangregg/FlameGraph  # or download it from github
cd FlameGraph
perf record -F 99 -a -g -- sleep 60
perf script | ./stackcollapse-perf.pl > out.perf-folded
./flamegraph.pl out.perf-folded > perf-kernel.svg

在结果图中，寻找最高的“高原”。这表明函数具有最独特的时间。

我期望当该bpfcc-tools软件包在 Debian 稳定版中时，能够以更少的开销直接收集这些“折叠”堆栈。

如何处理取决于你发现的内容。了解哪些关键部分受到锁的保护。与对现代硬件上可扩展同步的现有研究进行比较。例如，Concurrency Kit 演示文稿指出，不同的自旋锁实现具有不同的属性。

Answer

当多个插槽大幅降低性能时，肯定看起来像是 NUMA 效应。

perf非常有用。在性能报告中，您可以看到native_queued_spin_lock_slowpath占用了 35%，这似乎对您的并发代码来说是很大的开销。如果您对并发代码不是很了解，那么棘手的部分就是可视化什么在调用什么。

我会推荐利用系统范围的 CPU 采样制作火焰图。快速开始：

git clone https://github.com/brendangregg/FlameGraph  # or download it from github
cd FlameGraph
perf record -F 99 -a -g -- sleep 60
perf script | ./stackcollapse-perf.pl > out.perf-folded
./flamegraph.pl out.perf-folded > perf-kernel.svg

在结果图中，寻找最高的“高原”。这表明函数具有最独特的时间。

我期望当该bpfcc-tools软件包在 Debian 稳定版中时，能够以更少的开销直接收集这些“折叠”堆栈。

如何处理取决于你发现的内容。了解哪些关键部分受到锁的保护。与对现代硬件上可扩展同步的现有研究进行比较。例如，Concurrency Kit 演示文稿指出，不同的自旋锁实现具有不同的属性。

Question 2

我敢说这是硬件“问题”。您使 IO 子系统过载，而正是这种并行性导致其速度变慢（如磁盘）。

主要症状为：

IO 线程约 100 个
您只字未提 IO。这是典型的缺乏经验的人忽视且从不谈论的领域。数据库的典型特征是“哦，我有那么多内存，但我没有告诉您我使用慢速大容量磁盘运行，为什么我这么慢”。

Answer

我敢说这是硬件“问题”。您使 IO 子系统过载，而正是这种并行性导致其速度变慢（如磁盘）。

主要症状为：

IO 线程约 100 个
您只字未提 IO。这是典型的缺乏经验的人忽视且从不谈论的领域。数据库的典型特征是“哦，我有那么多内存，但我没有告诉您我使用慢速大容量磁盘运行，为什么我这么慢”。

Question 3

因为软件厂商大多懒得做多核优化。

软件设计师很少设计能够充分利用系统硬件功能的软件。一些编写良好的软件可以被认为是优秀的软件，例如挖矿软件，因为其中许多软件能够将显卡的处理能力发挥到最大程度（与游戏不同，游戏从未接近利用 GPU 的真正处理能力）。

如今，很多软件都存在类似情况。它们从不费心进行多核优化，因此，与运行速度较低的内核相比，运行速度较高的内核较少的软件时，性能会更好。在内核较多且速度较快的情况下，由于相同的原因，这并不总是一种优势：代码编写不当。程序会尝试将其子任务拆分到过多的内核上，这实际上会延迟整体处理。

Answer

因为软件厂商大多懒得做多核优化。

软件设计师很少设计能够充分利用系统硬件功能的软件。一些编写良好的软件可以被认为是优秀的软件，例如挖矿软件，因为其中许多软件能够将显卡的处理能力发挥到最大程度（与游戏不同，游戏从未接近利用 GPU 的真正处理能力）。

如今，很多软件都存在类似情况。它们从不费心进行多核优化，因此，与运行速度较低的内核相比，运行速度较高的内核较少的软件时，性能会更好。在内核较多且速度较快的情况下，由于相同的原因，这并不总是一种优势：代码编写不当。程序会尝试将其子任务拆分到过多的内核上，这实际上会延迟整体处理。

为什么拥有更多更快的内核反而会使我的多线程软件变得更慢？

降低分配给进程的核心数量，使得系统更好地利用核心（更多绿色部分，更高的 CPU 使用率）并使整个软件（所有 10 个进程）运行得更快（TPS 约为 400）。

答案1

答案2

答案3

相关内容