整台机器冻结……不知所措

整台机器冻结……不知所措

几个月前,我们建造了大约 12 台机器来运行 Ubuntu。它们每台都有以下规格:

ASUS Z8NA-D6 主板 双四核 Intel(R) Xeon(R) CPU E5520 @ 2.27GHz OCZ Mod Extreme Pro 500W 电源 12 GB 金士顿内存 Nvidia GeForce 9800 GT 显卡

我的机器运行良好了一段时间。然而,它开始遇到随机死机。这些死机不是 X 死机,而是系统完全冻结。网卡停止响应,神奇的 sysrq 按钮不起作用。机器死机了。

我首先怀疑是 RAM。Memtest86 没有发现任何问题,但我还是更换了 RAM。但还是死机了。于是我更换了显卡。但还是死机了。死机越来越频繁,一天发生 2-3 次。

于是我一下子更换了主板和电源。突然间,不再死机了!哇哦!

但一周后,早上,机器却无法唤醒。我重置了它,启动了它,日志文件显示最后一条记录是在前一天晚上 11 点左右。这种情况开始越来越频繁……现在几乎每天早上我进来,机器都被锁住了,从前一天晚上开始就一直如此。

昨天,在我更换主板和电源后的 3 周内,机器居然在工作中途死机了。这是更换主板和电源后第一次发生这种情况当我使用它的时候其余一切都发生在我不在的时候。

我不知所措。系统日志或消息中没有任何内容表明在锁定时存在问题。温度很好...我使用 lmsensors 进行监控,并有一个脚本每分钟将输出写入文件。它们从来没有达到那么高的温度。

目前我唯一没有更换的是机箱和硬盘。我怀疑这两者都不是原因。

如果你处于我的位置,你会怎么做?我是否缺少故障排除方法?

顺便说一下,其他 11 台机器都没有问题。它们都运行与我相同版本的 Ubuntu (Lucid)。

答案1

由于您有一些相同的系统,因此您有一个不错的候选者二进制部分交换。

拿一个正常工作的系统,然后更换 CPU。看看问题是否转移到另一台机器。然后更换所有 RAM。(我知道您已经更换了所有 RAM;但是对于非 ECC RAM,您很可能用坏 RAM 替换了坏 RAM。)继续更换所有其他部件,直到问题消失。您可以保留主板,因为最终您将更换所有其他部件,这是一样的。

如果您无法腾出一台机器,您可以尝试将内存减半,或者如果您正在运行两个 CPU,请删除一个。

每次只做一项更改,这样您就可以立即识别问题。您可能会遇到两台机器都变得不可靠的情况。这可能是因为原始系统存在多个问题,和/或存在一些边界问题,例如非常边缘的电源。

编辑:经过一番研究,我认为您的 39.99 美元退税后电源在质量和尺寸方面都非常低廉。您已在这些系统上投入了大量资金。请不要用便宜的 1000W 电源替换这个便宜的 500W 电源。访问 jonnyguru.com 并获取一些有关优质电源的建议,列出您的组件并让他们选择瓦数。我认为是 650W 左右,但质量与瓦数同样重要。他们最近评测了一款 1000W P/S,实际上功率更接近 650W,因此您可以知道许多电源的瓦数额定值不可信。

即使您发现问题出在另一个组件上,我仍然建议升级这些系统上的电源。

相关内容