在多线程应用程序中同步线程

Question

CPU 利用率作为简单的百分比无法传达多核、多线程、多执行单元 CPU 和内存的复杂性。几乎可以肯定CPU 实际上停滞在内存或缓存上而那些确实拥有数据的进程将会争夺执行单元。

此 CPU 只有 16 个内核。如您所发现的，将其视为 32 个内核在某些时候会严重降低性能。即使使用 SMT 2。也许您可以将线程数增加到内核的 125%（20），但 175%（28）会超出这个范围。尤其是在运行其他程序的情况下。减少线程数。

确保计算出每秒每个线程完成的有用工作。进行实验，一次更改一个变量。如果您可以访问这些处理器，也许可以尝试具有不同缓存和核心数配置的处理器。

使用性能监控计数器测量您的停滞程度。在 VM 中不起作用，但在 Linux 上值得一试。来自我之前链接的 Gregg：

perf stat -a -- sleep 10

Xeon 的理论最高速度是每周期 4 或 5 条指令。您无法达到这个速度，但 < 1.0 IPC 会因内存而额外停滞。

一定要了解应用程序的代码和热点。哪些函数在 CPU 上花费的时间最多？哪些汇编代码受到的影响最大？您的 CPU 上的哪些执行单元在处理这些 uop 时工作最努力？

火焰图非常适合对 CPU 函数进行可视化。您提到了 EL 8，它具有封装好的火焰图工具。

yum install perf js-d3-flame-graph
# system wide, 99 Hz, for 60 seconds
perf script flamegraph -a -F 99 sleep 60

需要开发人员对程序有一定程度的理解才能充分解释结果。使用符号或源代码，性能报告可以注释在类似调试器的体验中。

Answer 1