仅使用软件事件检测到损坏的 PMU 硬件

仅使用软件事件检测到损坏的 PMU 硬件

我四台机器中有两台(dell r815)在我运行时没有显示 CPU 硬件计数器(从 ubuntu 或 debian 上的 linux-tools-common):

perf list

我使用 strace 发现问题在于两台出现问题的机器上缺少 /sys/devices/cpu。我将其追溯到 dmesg 中的一个错误:

Performance Events: Broken PMU hardware detected, using software events only.

在工作的机器上写着

Performance Events: AMD PMU driver.

我的问题是:我该怎么做才能确保这不是软件或配置问题?在我看来,这可能是硬件问题。

答案1

我发现问题在于受影响机器的 CPU 上的微码版本较旧。我尝试安装 amd64-microcode 软件包,它确实更新了微码,但只有在 dmesg 中显示 PMU 错误后才更新。我使用戴尔的可启动服务器配置工具更新 bios 和系统固件,它解决了这个问题。希望这对遇到同样问题的人有所帮助。

相关内容