运行 Debian 的 Dell Inspiron 灵越因使用频繁而关闭

运行 Debian 的 Dell Inspiron 灵越因使用频繁而关闭

我不知道这是 Debian 问题还是硬件问题,但信息是在 Linux 中的。

我在 Dell Inspiron 520(AMD 芯片)上安装了 Debian 6.7。我通过以下方式获取CPU信息

less /proc/cpuinfo

这导致

processor       : 0
vendor_id       : AuthenticAMD
cpu family      : 16
model           : 6
model name      : AMD Athlon(tm) II X2 250 Processor
stepping        : 3
microcode       : 0x10000b6
cpu MHz         : 800.000
cache size      : 1024 KB
physical id     : 0
siblings        : 2
core id         : 0
cpu cores       : 2
apicid          : 0
initial apicid  : 0
fpu             : yes
fpu_exception   : yes
cpuid level     : 5
wp              : yes
flags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ht syscall nx mmxext fxsr_opt pdpe1gb rdtscp lm 3dnowext 3dnow constant_tsc rep_good nopl nonstop_tsc extd_apicid pni monitor cx16 popcnt lahf_lm cmp_legacy svm extapic cr8_legacy abm sse4a misalignsse 3dnowprefetch osvw ibs skinit wdt hw_pstate npt lbrv svm_lock nrip_save
bogomips        : 6000.65
TLB size        : 1024 4K pages
clflush size    : 64
cache_alignment : 64
address sizes   : 48 bits physical, 48 bits virtual
power management: ts ttp tm stc 100mhzsteps hwpstate

processor       : 1
vendor_id       : AuthenticAMD
cpu family      : 16
model           : 6
model name      : AMD Athlon(tm) II X2 250 Processor
stepping        : 3
microcode       : 0x10000b6
cpu MHz         : 800.000
cache size      : 1024 KB
physical id     : 0
siblings        : 2
core id         : 1
cpu cores       : 2
apicid          : 1
initial apicid  : 1
fpu             : yes
fpu_exception   : yes
cpuid level     : 5
wp              : yes
flags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ht syscall nx mmxext fxsr_opt pdpe1gb rdtscp lm 3dnowext 3dnow constant_tsc rep_good nopl nonstop_tsc extd_apicid pni monitor cx16 popcnt lahf_lm cmp_legacy svm extapic cr8_legacy abm sse4a misalignsse 3dnowprefetch osvw ibs skinit wdt hw_pstate npt lbrv svm_lock nrip_save
bogomips        : 6000.02
TLB size        : 1024 4K pages
clflush size    : 64
cache_alignment : 64
address sizes   : 48 bits physical, 48 bits virtual
power management: ts ttp tm stc 100mhzsteps hwpstate

我已经安装了 psensor 来监控温度。它可以达到 100% 使用率,同时 CPU 温度保持在 50C 以下。然而,对于长时间运行、CPU 密集型的应用程序,例如

sudo maldet --scan-all /

计算机在应用程序完成之前关闭。有一次,电源灯还亮着,桌面上传来一声尖锐的呜呜声。我用北极银替换了CPU上的导热膏。正常运行情况下,即使 CPU 使用率 100%,温度也会高达 46 左右。将计算机侧面取下并不会导致 CPU 温度发生明显变化。

我跑了

sudo dmidecode |grep -B 2 Stat

并得到了

Serial Number: DST5MS1
Asset Tag: 
Boot-up State: Safe
Power Supply State: Safe
Thermal State: Safe
Security Status: None
--
Max Speed: 3000 MHz
Current Speed: 3000 MHz
Status: Populated, Enabled
--
Handle 0x0017, DMI type 32, 20 bytes
System Boot Information
Status: No errors detected

当我进入时

sensors

我有

k10temp-pci-00c3
Adapter: PCI adapter
temp1: +16.5°C (high = +70.0°C)

it8720-isa-0a10
Adapter: ISA adapter
in0: +1.07 V (min = +0.00 V, max = +4.08 V)
in1: +1.10 V (min = +0.00 V, max = +4.08 V)
in2: +3.02 V (min = +0.00 V, max = +4.08 V)
+5V: +3.01 V (min = +0.00 V, max = +4.08 V)
in4: +3.33 V (min = +0.00 V, max = +4.08 V)
in5: +2.14 V (min = +0.00 V, max = +4.08 V)
in6: +2.14 V (min = +0.00 V, max = +4.08 V)
5VSB: +2.96 V (min = +0.00 V, max = +4.08 V)
Vbat: +3.25 V 
fan1: 816 RPM (min = 0 RPM)
fan2: 888 RPM (min = 0 RPM)
temp1: +23.0°C (low = -1.0°C, high = +127.0°C) sensor = thermal diode
temp2: +33.0°C (low = -1.0°C, high = +127.0°C) sensor = thermal diode
temp3: -128.0°C (low = -1.0°C, high = +127.0°C) sensor = disabled
cpu0_vid: +0.375 V
intrusion0: ALARM

我更换了电源

我决定通过运行对其进行压力测试

sudo maldet --scan-all /

在终端窗口中。该调用会运行数小时,并且占用大量 CPU 资源。 psensor 的风扇 1 突然从 830 降至 770,然后开始缓慢上升。但CPU温度逐渐从30多摄氏度上升到40多摄氏度。当我晚上睡觉时,马尔代特已经完成了四分之一,温度在40多摄氏度。第二天早上,电脑停止工作了。这不仅仅是光标,因为我在电脑上运行一个网站并且无法访问它。

为了排除 Gnome 桌面的问题,我重新启动了 Debian,然后按 ctrl-alt-F4 进入基本命令行。然后我跑了

sudo maldet --scan-all /

它运行了几个小时,电脑开始发出相当高的声音,大声抱怨,屏幕上有很多随机文本,不断变化。很难说它是从哪里来的。拔掉硬盘后,文字就停止了,但呜呜声却没有停止,所以我怀疑是电源的问题。

我再次开始运行它,这次是在 PC 外部使用 PSU,这样我可以尝试确定它是 PSU。大约一个小时后,屏幕上出现了以下文字。 (自从滚动到视图之外后,我可能错过了前几行。)

test_tsk_need_resched
check_preempt_cur
ttwu_do_wakeup
x86_pmu_config_addr
paravirt_write_msr
perf_ctx_adjust_freq
read_tsc
timekeeping_get_ns
ktime_get_update_offsets
hrtimer_interrupt
test_tsk_need_resched
resched_tsk
check_preempt_curr
ttwin_do_wakeups
smp+apic_timer
apic_timer_interrupt
copy_pte_range
copy_page_range
dup_mn
copy_process
do_fork
stub_clone
system_call_fastpath

此时,PC 停止响应键盘回车。

编辑:

我测试了内存

sudo /usr/bin/memtester 5 1

并得到了

memtester version 4.2.2 (64-bit)
Copyright (C) 2010 Charles Cazabon.
Licensed under the GNU General Public License version 2 (only).

pagesize is 4096
pagesizemask is 0xfffffffffffff000
want 5MB (5242880 bytes)
got  5MB (5242880 bytes), trying mlock ...locked.
Loop 1/1:
  Stuck Address       : ok         
  Random Value        : ok
  Compare XOR         : ok
  Compare SUB         : ok
  Compare MUL         : ok
  Compare DIV         : ok
  Compare OR          : ok
  Compare AND         : ok
  Sequential Increment: ok
  Solid Bits          : ok         
  Block Sequential    : ok         
  Checkerboard        : ok         
  Bit Spread          : ok         
  Bit Flip            : ok         
  Walking Ones        : ok         
  Walking Zeroes      : ok         
  8-bit Writes        : ok
  16-bit Writes       : ok

Done.

答案1

检查CPU散热器是否紧固良好(检查复合材料或缺少复合材料),检查风扇,我发现内存是这些机器上的罪魁祸首,而且用新的电源进行测试也不是一个坏主意。您的所有指标都表明可能存在硬件问题。

答案2

我不明白这怎么可能是软件问题。你需要追踪那个噪音。如果您的 PSU 是全新的并且由于此问题而被用作替换件,那么它也不太可能是原因。

不太相关,但是您是否尝试过只对 CPU 施加压力而不对磁盘施加压力的方法?您可以使用:

pyrit benchmark_long

检查系统崩溃前的内核日志。也许有什么有用的东西。

如果您想完全确定它与软件无关,请获取 Linux 启动 CD 并运行一些压力测试。如果崩溃了,那么很可能是硬件问题。或者更好的是,尝试不同的操作系统。

在进行压力测试时,请继续观察温度并留意 dmesg 或内核日志中的错误消息。

编辑

内存错误也会导致类似的问题。尝试 memtest86,它过去对我有用。它是一个启动 CD,独立于操作系统。似乎抓住了一切。

http://www.memtest86.com/

相关内容