如何在启动时禁用特定的 CPU 核心?

如何在启动时禁用特定的 CPU 核心?

我有一个 16 核 Intel Xeon 处理器,可以成功启动到 BIOS 和 GRUB,但无法加载 Ubuntu(或任何操作系统)。事实证明,核心 #14 是所有问题的根源(使用 memtest86 测试每个核心后发现)。在 BIOS 中,我可以将系统设置为仅使用 2 个核心运行,并且系统在此配置下可以正常工作。但我希望能够使用 16 个核心中的 15 个。有没有办法在启动时仅禁用核心 #14?

答案1

你可以利用CPU热插拔实现目标的能力。您可以启动 CPU 0-13,然后再添加其他 CPU(CPU 15-27 和 29-31)。

所有 Xeon 处理器都具有超线程,因此我假设您的意思是 16 个内核,每个内核 2 个线程,总共 32 个 CPU。此答案是针对 4 个内核、每个内核 2 个线程的处理器编写和测试的,其中内核 2 是坏的。

首先,以 sudo 身份编辑/etc/default/grub并将最大启动时间 CPU 添加maxcpus=GRUB_CMDLINE_LINUX_DEFAULT行中。以我的系统为例:

曾是:

GRUB_CMDLINE_LINUX_DEFAULT="ipv6.disable=1 consoleblank=300 cpuidle_sysfs_switch cpuidle.governor=teo"

现在:

GRUB_CMDLINE_LINUX_DEFAULT="ipv6.disable=1 consoleblank=300 cpuidle_sysfs_switch cpuidle.governor=teo maxcpus=2"

我使用的地方,maxcpus=2您也会使用maxcpus=14

先保存一份 grub,然后运行sudo update-grub。这样,系统将只使用核心 0 和 1 进行启动,并且 CPU 0,1 处于在线状态:

doug@s15:~$ grep . /sys/devices/system/cpu/cpu*/online
/sys/devices/system/cpu/cpu1/online:1
/sys/devices/system/cpu/cpu2/online:0
/sys/devices/system/cpu/cpu3/online:0
/sys/devices/system/cpu/cpu4/online:0
/sys/devices/system/cpu/cpu5/online:0
/sys/devices/system/cpu/cpu6/online:0
/sys/devices/system/cpu/cpu7/online:0

注意:对于默认的 Ubuntu 内核配置,CPU 0 始终处于在线状态,并且不存在以下情况:

doug@s15:~$ grep . /sys/devices/system/cpu/cpu0/online
grep: /sys/devices/system/cpu/cpu0/online: No such file or directory

好的,现在将其他所需的核心和 CPU 联机:

doug@s15:~$ echo 1 | sudo tee /sys/devices/system/cpu/cpu3/online
1
doug@s15:~$ echo 1 | sudo tee /sys/devices/system/cpu/cpu4/online
1
doug@s15:~$ echo 1 | sudo tee /sys/devices/system/cpu/cpu5/online
1
doug@s15:~$ echo 1 | sudo tee /sys/devices/system/cpu/cpu7/online

并检查:

doug@s15:~$ grep . /sys/devices/system/cpu/cpu*/online
/sys/devices/system/cpu/cpu1/online:1
/sys/devices/system/cpu/cpu2/online:0
/sys/devices/system/cpu/cpu3/online:1
/sys/devices/system/cpu/cpu4/online:1
/sys/devices/system/cpu/cpu5/online:1
/sys/devices/system/cpu/cpu6/online:0
/sys/devices/system/cpu/cpu7/online:1

因此现在,我有核心 0、1、3 在线,核心 2 离线,并且有 6 个 CPU 可用。请注意,核心 0 = CPU 0 和 4,核心 1 = CPU 1 和 5,...

编辑 1:对于 32 个 CPU,也许您有多个节点(处理器),因此核心到 CPU 的映射可能会不同。

编辑 2:启动后上线的 CPU 可能默认使用 intel_pstate CPU 频率调整驱动程序中的性能调节器,这是内核配置默认值(对于启用了启动功能的 CPU,在启动后 1 分钟更改为省电)。您可能需要检查并根据自己的喜好设置所有 CPU 调节器,通常是省电调节器。要检查,请执行以下操作:

grep . /sys/devices/system/cpu/cpu*/cpufreq/scaling_driver
grep . /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor

要更改州长,请执行以下操作,例如(以 root 身份注意):

# for file in /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor; do echo "powersave" > $file; done

一旦事情按照您想要的方式进行,您就可以自动执行启动后额外的在线步骤(有关“如何操作”,请参阅其他问题和答案)。

注意:我认为您应该能够通过“possible_cpus=n”操作“cpu_possible_mask”在一个启动步骤中实现您的目标,但我无法让它工作。其他人可能知道。

相关内容