我有 5 台服务器,所有服务器的硬件都类似(i7、四个 2TB 7200rpm 硬盘、两个 4TB 5400rpm 硬盘、430 瓦电源),最近机器一直处于死机状态。这种情况在过去一天左右变得更糟,我无法确定任何原因。最近的一个变化是添加了两个 4TB 硬盘。崩溃最常发生在运行大型 Hadoop 作业时,所以我最初认为负载导致了某些问题,但昨晚一台服务器在没有负载的情况下就死机了(至少我是这么认为的),除了 HDFS(Hadoop 的分布式文件系统)可能正在重新平衡自身,因为五个节点中有两个处于离线状态。
如果我将显示器和键盘插入到其中一台冻结的机器上,我无法在屏幕上得到任何响应或反馈。
您对可能的故障点和/或我可以查看以进行调查的不同日志有什么想法吗?谢谢
编辑:系统运行的是 Ubuntu 10.04
编辑2:有关硬件的更多信息:
- 英特尔酷睿 i7-930 bloomfield 2.8ghz 处理器(四核)
- 12GB (6 x 2GB) 金士顿 ddr3 1333 内存
- antec earthwatts green 430 电源
- 微星 x58m lga 1366 主板
编辑3:我暂时拔出了两个 4TB 硬盘,看看是否有助于解决崩溃问题,到目前为止,即使在 Hadoop 负载很重的情况下,服务器仍保持正常运行。我很快会尝试使用功率计来确认它们是否消耗了过多的电量。
答案1
我的车需要多少马力?我最近加了50公斤的重量。
你看出问题了?我们不知道。你告诉我们。
例如,您经常谈论硬盘和 Ubuntu,但却没有提到内存(使用功率)和处理器。430 瓦对于高端处理器来说太少了 - 但可能适用于原子。它甚至可能适用于单处理器,但不适用于双处理器 - 但您从未告诉我们您拥有什么。
另外,您是否考虑过为服务器插入一个功率计?它们很便宜,可以告诉您消耗了多少电量。我只需买一个 15 美元的功率计就可以了。
是的,过载的电源可能会破坏服务器的稳定性。