我有一个 16 核 Intel Xeon 处理器,可以成功启动到 BIOS 和 GRUB,但无法加载 Ubuntu(或任何操作系统)。事实证明,核心 #14 是所有问题的根源(使用 memtest86 测试每个核心后发现)。在 BIOS 中,我可以将系统设置为仅使用 2 个核心运行,并且系统在此配置下可以正常工作。但我希望能够使用 16 个核心中的 15 个。有没有办法在启动时仅禁用核心 #14?
答案1
你可以利用CPU热插拔实现目标的能力。您可以启动 CPU 0-13,然后再添加其他 CPU(CPU 15-27 和 29-31)。
所有 Xeon 处理器都具有超线程,因此我假设您的意思是 16 个内核,每个内核 2 个线程,总共 32 个 CPU。此答案是针对 4 个内核、每个内核 2 个线程的处理器编写和测试的,其中内核 2 是坏的。
首先,以 sudo 身份编辑/etc/default/grub
并将最大启动时间 CPU 添加maxcpus=
到GRUB_CMDLINE_LINUX_DEFAULT
行中。以我的系统为例:
曾是:
GRUB_CMDLINE_LINUX_DEFAULT="ipv6.disable=1 consoleblank=300 cpuidle_sysfs_switch cpuidle.governor=teo"
现在:
GRUB_CMDLINE_LINUX_DEFAULT="ipv6.disable=1 consoleblank=300 cpuidle_sysfs_switch cpuidle.governor=teo maxcpus=2"
我使用的地方,maxcpus=2
您也会使用maxcpus=14
。
先保存一份 grub,然后运行sudo update-grub
。这样,系统将只使用核心 0 和 1 进行启动,并且 CPU 0,1 处于在线状态:
doug@s15:~$ grep . /sys/devices/system/cpu/cpu*/online
/sys/devices/system/cpu/cpu1/online:1
/sys/devices/system/cpu/cpu2/online:0
/sys/devices/system/cpu/cpu3/online:0
/sys/devices/system/cpu/cpu4/online:0
/sys/devices/system/cpu/cpu5/online:0
/sys/devices/system/cpu/cpu6/online:0
/sys/devices/system/cpu/cpu7/online:0
注意:对于默认的 Ubuntu 内核配置,CPU 0 始终处于在线状态,并且不存在以下情况:
doug@s15:~$ grep . /sys/devices/system/cpu/cpu0/online
grep: /sys/devices/system/cpu/cpu0/online: No such file or directory
好的,现在将其他所需的核心和 CPU 联机:
doug@s15:~$ echo 1 | sudo tee /sys/devices/system/cpu/cpu3/online
1
doug@s15:~$ echo 1 | sudo tee /sys/devices/system/cpu/cpu4/online
1
doug@s15:~$ echo 1 | sudo tee /sys/devices/system/cpu/cpu5/online
1
doug@s15:~$ echo 1 | sudo tee /sys/devices/system/cpu/cpu7/online
并检查:
doug@s15:~$ grep . /sys/devices/system/cpu/cpu*/online
/sys/devices/system/cpu/cpu1/online:1
/sys/devices/system/cpu/cpu2/online:0
/sys/devices/system/cpu/cpu3/online:1
/sys/devices/system/cpu/cpu4/online:1
/sys/devices/system/cpu/cpu5/online:1
/sys/devices/system/cpu/cpu6/online:0
/sys/devices/system/cpu/cpu7/online:1
因此现在,我有核心 0、1、3 在线,核心 2 离线,并且有 6 个 CPU 可用。请注意,核心 0 = CPU 0 和 4,核心 1 = CPU 1 和 5,...
编辑 1:对于 32 个 CPU,也许您有多个节点(处理器),因此核心到 CPU 的映射可能会不同。
编辑 2:启动后上线的 CPU 可能默认使用 intel_pstate CPU 频率调整驱动程序中的性能调节器,这是内核配置默认值(对于启用了启动功能的 CPU,在启动后 1 分钟更改为省电)。您可能需要检查并根据自己的喜好设置所有 CPU 调节器,通常是省电调节器。要检查,请执行以下操作:
grep . /sys/devices/system/cpu/cpu*/cpufreq/scaling_driver
grep . /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor
要更改州长,请执行以下操作,例如(以 root 身份注意):
# for file in /sys/devices/system/cpu/cpu*/cpufreq/scaling_governor; do echo "powersave" > $file; done
一旦事情按照您想要的方式进行,您就可以自动执行启动后额外的在线步骤(有关“如何操作”,请参阅其他问题和答案)。
注意:我认为您应该能够通过“possible_cpus=n”操作“cpu_possible_mask”在一个启动步骤中实现您的目标,但我无法让它工作。其他人可能知道。