嗯...我的服务器里住着一个鬼魂

嗯...我的服务器里住着一个鬼魂

大家好,来自希腊的问候

我遇到了一个相当不寻常的情况,我的想法已经用尽了。我有一台旧服务器(IBM x205 - P4 2.4Ghz,3xSCSI 36gb),大约一年前,我决定将其用作附加域控制器和传真及文件服务器。为了完成这项任务,我有一张 Delock 70154 SATA 卡以及 2x320 SATA II HDD

大约三周前,一切都非常顺利。当时我正在旅行,回来后我被告知服务器已冻结。好吧,我认为这是一次故障,因为简单的断电/通电就能解决所有问题。两周前,又一次发生冻结情况。事情变得可疑,但断电/通电后,一切又恢复正常。

它再次冻结,当我启动它时,它显示一条消息,由于 NTDS 损坏,域服务无法启动。在安全模式下启动显示 SATA Raid 存在问题(降级)。

经过大量搜索后,我降级了服务器,清理了 Active Directory,拔出了两个硬盘(其中一个真的很糟糕)并恢复了我的文件(我在 Delock 处理冗余硬盘的方式上遇到了一些问题)。

现在我的服务器非常简单,只有出厂时安装的东西。有趣的事情就从这里开始。每天当我到达办公室时,我都会发现这台机器死机了,我的意思是完全死机了。只有黑屏,没有其他东西。CPU 风扇在工作,PSU 在工作。键盘和鼠标都坏了(它们还锁定了我的 KVM),网络也是如此。机器死机了。

我强行关闭电源,然后重新打开电源。在我待在办公室的 8 个小时里,它一直工作着,要么空转,要么运行某种诊断程序。当我离开办公室时,过了一段时间(可能是 30 分钟后,也可能是 4 小时后),机器就死机了。这是事件日志显示的信息

"the previous shutdown at xx:xx:xx was unexpected"

我尝试了以下操作:Memtest:什么都没有出现 Passmark 烧入测试:什么都没有出现 仔细研究事件日志:没有看到任何有趣的内容 将选项设置为崩溃后不自动启动,以便我可以看到 BSOD:什么都没有看到 电源方案设置为永不休眠。

我知道还有很多其他工具会对像 OCCT 这样的机器造成很大压力,但机器太旧了。今天我还是会尝试一下。一个想法是重新格式化它,但我真的很想找出导致这种情况的原因,因为我可能会遇到这种情况:一切都正常工作了一段时间,然后突然就坏了,有一天它又死机了。我真的需要帮助,每个意见/想法都会受到欢迎。我知道显而易见的解决方案是永远不要离开办公室,但我有自己的生活。对不起,服务器。:)

PS 机器死机的情况已经持续了大约一周。每天我都会设置 RAID 进行重建或复制/恢复文件,而一切正常

答案1

听起来服务器很旧了。而且听起来它正在缓慢而痛苦地走向死亡。大多数 IT 部门在一段时间后更换硬件是有原因的。原因是维护旧硬件的成本太高了。我敢打赌你现在的服务器已经 6-8 年了。把它处理掉吧。它带来的麻烦比它的价值还要多。你的主板或处理器可能坏了。你可能找不到新的,所以你不得不购买二手零件。使用二手零件,你不知道是否会给服务器带来新问题。就像我说的,把它处理掉吧。它不值得你投入精力/时间/金钱。

答案2

好吧,我找到了幽灵......虽然花了一些时间,但最终我还是找到了它。问题是由于电容器泄漏......其中一个电容器决定不再浪费我的时间,于是就把液体倒出来了......所以希望是时候换个新东西了......:)

答案3

如果已使用超过 3 年,就将其丢弃;如果没有,就使用保修并进行维修。

排除硬件故障是硬件改装爱好者的活儿——在这个层面上这样做没有有效的商业案例。即使是最简单的 IT 服务也应该由可靠的硬件提供支持,否则服务将不可靠。

如果你算一下,单是更现代的 x86 服务器的功耗降低就足以让你购买一台新的低端服务器了(除非你的电力是免费的)。

答案4

正如我在一条评论中所说,我同意解决这个问题很有趣,可以避免不必要的垃圾,并为未来吸取新的教训。

像这样的旧服务器仍然可以很好地执行不太重要的任务,例如作为 AD 域控制器执行的任务,但将其用作文件服务器可能有点极端。

对于我来说,使用 OpenSUSE 安装 CD 进行磁盘和内存测试真的很方便。测试硬件是否存在错误确实很重要。

然后我真的会考虑清洁 RAM 的触点(我通常使用比某些产品更便宜的橡胶)。

相关内容