在 12 核 Linux 机器上,作为用户(没有 root 权限),我在单个进程上启动作业。当我点击Ctrl-Z
该过程时,该过程会暂停并kill -CONT
恢复。这很好用。
但是,当同一个作业以 12 个线程(OpenMP)运行时,当我点击机器时Ctrl-Z
,机器就会关闭(立即断电)。kill -STOP
向进程发送信号时也会发生同样的情况。
这是内核的错误还是某些驱动程序的错误?我怎样才能找到这个问题的根源?
编辑:这是一个已有 6 年历史的 CentOS,采用双插槽(2x6 核),没有超线程:
Linux localhost.localdomain 2.6.32-642.6.2.el6.x86_64 #1 SMP Wed Oct 26
06:52:09 UTC 2016 x86_64 x86_64 x86_64 GNU/Linux
/proc/cpuinfo
processor : 11
vendor_id : GenuineIntel
cpu family : 6
model : 44
model name : Intel(R) Xeon(R) CPU X5680 @ 3.33GHz
stepping : 2
microcode : 19
cpu MHz : 1596.000
cache size : 12288 KB
physical id : 1
siblings : 6
core id : 10
cpu cores : 6
apicid : 52
initial apicid : 52
fpu : yes
fpu_exception : yes
cpuid level : 11
wp : yes
flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca
cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx
pdpe1gb rdtscp lm constant_tsc arch_perfmon pebs bts rep_good xtopology
nonstop_tsc aperfmperf pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2
ssse3 cx16 xtpr pdcm pcid dca sse4_1 sse4_2 popcnt aes lahf_lm ida arat
epb dtherm tpr_shadow vnmi flexpriority ept vpid
bogomips : 6649.68
clflush size : 64
cache_alignment : 64
address sizes : 40 bits physical, 48 bits virtual
power management:
编辑回答评论中的问题:
它是 100% 可重复的。它是在 1 个月前更新 CentOS 并将机器从一个房间移动到另一个房间后开始的。
它立即发生,没有延迟。 SIGKILL 工作正常。
这是一个计算和I/O 过程。