我不知道这是 Debian 问题还是硬件问题,但信息是在 Linux 中的。
我在 Dell Inspiron 520(AMD 芯片)上安装了 Debian 6.7。我通过以下方式获取CPU信息
less /proc/cpuinfo
这导致
processor : 0
vendor_id : AuthenticAMD
cpu family : 16
model : 6
model name : AMD Athlon(tm) II X2 250 Processor
stepping : 3
microcode : 0x10000b6
cpu MHz : 800.000
cache size : 1024 KB
physical id : 0
siblings : 2
core id : 0
cpu cores : 2
apicid : 0
initial apicid : 0
fpu : yes
fpu_exception : yes
cpuid level : 5
wp : yes
flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ht syscall nx mmxext fxsr_opt pdpe1gb rdtscp lm 3dnowext 3dnow constant_tsc rep_good nopl nonstop_tsc extd_apicid pni monitor cx16 popcnt lahf_lm cmp_legacy svm extapic cr8_legacy abm sse4a misalignsse 3dnowprefetch osvw ibs skinit wdt hw_pstate npt lbrv svm_lock nrip_save
bogomips : 6000.65
TLB size : 1024 4K pages
clflush size : 64
cache_alignment : 64
address sizes : 48 bits physical, 48 bits virtual
power management: ts ttp tm stc 100mhzsteps hwpstate
processor : 1
vendor_id : AuthenticAMD
cpu family : 16
model : 6
model name : AMD Athlon(tm) II X2 250 Processor
stepping : 3
microcode : 0x10000b6
cpu MHz : 800.000
cache size : 1024 KB
physical id : 0
siblings : 2
core id : 1
cpu cores : 2
apicid : 1
initial apicid : 1
fpu : yes
fpu_exception : yes
cpuid level : 5
wp : yes
flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ht syscall nx mmxext fxsr_opt pdpe1gb rdtscp lm 3dnowext 3dnow constant_tsc rep_good nopl nonstop_tsc extd_apicid pni monitor cx16 popcnt lahf_lm cmp_legacy svm extapic cr8_legacy abm sse4a misalignsse 3dnowprefetch osvw ibs skinit wdt hw_pstate npt lbrv svm_lock nrip_save
bogomips : 6000.02
TLB size : 1024 4K pages
clflush size : 64
cache_alignment : 64
address sizes : 48 bits physical, 48 bits virtual
power management: ts ttp tm stc 100mhzsteps hwpstate
我已经安装了 psensor 来监控温度。它可以达到 100% 使用率,同时 CPU 温度保持在 50C 以下。然而,对于长时间运行、CPU 密集型的应用程序,例如
sudo maldet --scan-all /
计算机在应用程序完成之前关闭。有一次,电源灯还亮着,桌面上传来一声尖锐的呜呜声。我用北极银替换了CPU上的导热膏。正常运行情况下,即使 CPU 使用率 100%,温度也会高达 46 左右。将计算机侧面取下并不会导致 CPU 温度发生明显变化。
我跑了
sudo dmidecode |grep -B 2 Stat
并得到了
Serial Number: DST5MS1
Asset Tag:
Boot-up State: Safe
Power Supply State: Safe
Thermal State: Safe
Security Status: None
--
Max Speed: 3000 MHz
Current Speed: 3000 MHz
Status: Populated, Enabled
--
Handle 0x0017, DMI type 32, 20 bytes
System Boot Information
Status: No errors detected
当我进入时
sensors
我有
k10temp-pci-00c3
Adapter: PCI adapter
temp1: +16.5°C (high = +70.0°C)
it8720-isa-0a10
Adapter: ISA adapter
in0: +1.07 V (min = +0.00 V, max = +4.08 V)
in1: +1.10 V (min = +0.00 V, max = +4.08 V)
in2: +3.02 V (min = +0.00 V, max = +4.08 V)
+5V: +3.01 V (min = +0.00 V, max = +4.08 V)
in4: +3.33 V (min = +0.00 V, max = +4.08 V)
in5: +2.14 V (min = +0.00 V, max = +4.08 V)
in6: +2.14 V (min = +0.00 V, max = +4.08 V)
5VSB: +2.96 V (min = +0.00 V, max = +4.08 V)
Vbat: +3.25 V
fan1: 816 RPM (min = 0 RPM)
fan2: 888 RPM (min = 0 RPM)
temp1: +23.0°C (low = -1.0°C, high = +127.0°C) sensor = thermal diode
temp2: +33.0°C (low = -1.0°C, high = +127.0°C) sensor = thermal diode
temp3: -128.0°C (low = -1.0°C, high = +127.0°C) sensor = disabled
cpu0_vid: +0.375 V
intrusion0: ALARM
我更换了电源这
我决定通过运行对其进行压力测试
sudo maldet --scan-all /
在终端窗口中。该调用会运行数小时,并且占用大量 CPU 资源。 psensor 的风扇 1 突然从 830 降至 770,然后开始缓慢上升。但CPU温度逐渐从30多摄氏度上升到40多摄氏度。当我晚上睡觉时,马尔代特已经完成了四分之一,温度在40多摄氏度。第二天早上,电脑停止工作了。这不仅仅是光标,因为我在电脑上运行一个网站并且无法访问它。
为了排除 Gnome 桌面的问题,我重新启动了 Debian,然后按 ctrl-alt-F4 进入基本命令行。然后我跑了
sudo maldet --scan-all /
它运行了几个小时,电脑开始发出相当高的声音,大声抱怨,屏幕上有很多随机文本,不断变化。很难说它是从哪里来的。拔掉硬盘后,文字就停止了,但呜呜声却没有停止,所以我怀疑是电源的问题。
我再次开始运行它,这次是在 PC 外部使用 PSU,这样我可以尝试确定它是 PSU。大约一个小时后,屏幕上出现了以下文字。 (自从滚动到视图之外后,我可能错过了前几行。)
test_tsk_need_resched
check_preempt_cur
ttwu_do_wakeup
x86_pmu_config_addr
paravirt_write_msr
perf_ctx_adjust_freq
read_tsc
timekeeping_get_ns
ktime_get_update_offsets
hrtimer_interrupt
test_tsk_need_resched
resched_tsk
check_preempt_curr
ttwin_do_wakeups
smp+apic_timer
apic_timer_interrupt
copy_pte_range
copy_page_range
dup_mn
copy_process
do_fork
stub_clone
system_call_fastpath
此时,PC 停止响应键盘回车。
编辑:
我测试了内存
sudo /usr/bin/memtester 5 1
并得到了
memtester version 4.2.2 (64-bit)
Copyright (C) 2010 Charles Cazabon.
Licensed under the GNU General Public License version 2 (only).
pagesize is 4096
pagesizemask is 0xfffffffffffff000
want 5MB (5242880 bytes)
got 5MB (5242880 bytes), trying mlock ...locked.
Loop 1/1:
Stuck Address : ok
Random Value : ok
Compare XOR : ok
Compare SUB : ok
Compare MUL : ok
Compare DIV : ok
Compare OR : ok
Compare AND : ok
Sequential Increment: ok
Solid Bits : ok
Block Sequential : ok
Checkerboard : ok
Bit Spread : ok
Bit Flip : ok
Walking Ones : ok
Walking Zeroes : ok
8-bit Writes : ok
16-bit Writes : ok
Done.
答案1
检查CPU散热器是否紧固良好(检查复合材料或缺少复合材料),检查风扇,我发现内存是这些机器上的罪魁祸首,而且用新的电源进行测试也不是一个坏主意。您的所有指标都表明可能存在硬件问题。
答案2
我不明白这怎么可能是软件问题。你需要追踪那个噪音。如果您的 PSU 是全新的并且由于此问题而被用作替换件,那么它也不太可能是原因。
不太相关,但是您是否尝试过只对 CPU 施加压力而不对磁盘施加压力的方法?您可以使用:
pyrit benchmark_long
检查系统崩溃前的内核日志。也许有什么有用的东西。
如果您想完全确定它与软件无关,请获取 Linux 启动 CD 并运行一些压力测试。如果崩溃了,那么很可能是硬件问题。或者更好的是,尝试不同的操作系统。
在进行压力测试时,请继续观察温度并留意 dmesg 或内核日志中的错误消息。
编辑
内存错误也会导致类似的问题。尝试 memtest86,它过去对我有用。它是一个启动 CD,独立于操作系统。似乎抓住了一切。