Dell T610 服务器反复出现磁盘故障

Dell T610 服务器反复出现磁盘故障

我购买了一台二手 Poweredge T610,并将其升级为 2 个 Hexcore Xeon X5675 处理器和 96 GB RAM。最初,我在 RAID-5 阵列(Perc6i 控制器)中使用了 3 个 WD 绿色 2TB 硬盘,并在虚拟磁盘上安装了 Ubuntu 服务器。这种设置运行良好,大约一年后,问题就开始出现了:

我购买了一些新驱动器以扩展为第二个阵列 - 4 个 3TB WD 红色驱动器。与此同时,我了解到至少 WD 绿色不是一个好的选择,所以我想在新的 VD 上备份一些数据。事实证明,Perc6i 不喜欢大于 2TB 的驱动器,但它识别了 3 TB 中的前 2 个。我还没有开始用新驱动器设置 VD,但 3 周后,我的 WD 绿色阵列开始损坏(首先只是某些软件中的奇怪字形,然后是更严重的问题,直到启动顺序损坏)。我最终找到了一家专业的数据恢复服务,幸运的是他们可以帮助我。我将 Perc6i 换成了 H700,并设置了一个由 4 个 3TB WD 红色驱动器组成的 RAID6 阵列(我在设置之前使用戴尔硬件诊断扩展测试对其进行了测试 - 它们都没有错误)。安装 Ubuntu、我需要的所有软件、x2go 等... 再次启动并运行。

现在我遇到了和以前一样的问题 - 在 X2go 中,它以相同的软件(生物信息学 artemis 包)启动,在命令行中吐出字形,似乎我又回到了原点。球童车上的所有状态 LED 均为常亮绿色,即在线。至少系统没有识别出任何预测故障。

我开始怀疑问题可能是什么:

我认为不太可能发生的情况是:-主磁盘再次发生故障!因为驱动器是新的,经过长时间测试后没有发现坏扇区,而且根本没有太多的通电时间。-第一次灾难发生后,perc6i 控制器已换成 H700,应该不是问题

我需要帮助来评估:-背板/电缆问题?(H700 控制器附带了另一种服务器类型的电缆,不适合我的情况 - 只需使用另一根 SATA6 电缆将控制器连接到背板)顺便说一下,驱动器与以前出现故障的驱动器位于相同的托架中,并带有原装戴尔 SATA 电缆。

-主板问题?-CPU 或 RAM 问题?-电源(电压峰值??)

以前有人遇到过类似的问题吗?任何帮助都非常感谢。不幸的是,我还要离开两周才能访问服务器(包括物理和网络),这个问题已经由我的妻子“报告”,她在我们本地网络中使用服务器(但不幸的是无法帮助解决问题)。


是的,我确实运行了完整的戴尔硬件诊断程序,没有任何问题。只有一个驱动器被检测到有缺陷的块,但我无法重建 raid 5 阵列,因此请了数据恢复专家。所有其他硬件都正常

我只是想知道是否存在不一致的问题,例如任何地方的故障接触,这些问题可能在某个时候通过测试,但在其他时候失败。或者测试是否没有涵盖所有场景……

答案1

从经验来看,这听起来像是内存损坏问题。我首先会尝试使用内存诊断工具。戴尔提供下载。

如果未发现任何错误,我会将所有硬件移除,以减少到所需的最低限度,然后再将它们添加回去,直到您看到问题。非常耗时,但有时如果诊断程序没有显示任何内容,这是唯一的方法。显然,对于硬盘驱动器来说很难做到这一点,但您可以对 CPU 和 RAM 做到这一点。不要忘记一次添加一个东西,否则您将不知道该归咎于哪一个。

我的另一个建议是使用虚拟机管理程序并创建虚拟机,而不是在裸机上安装。这将使在发生故障时恢复功能变得更加容易。此外,在安装应用程序之前建立备份机制将帮助您避免再次需要数据恢复服务。

答案2

运气不好?请在另一台新电脑上测试硬盘,看看它们的当前状态。

请记住,T610 已经有 9 年历史了。老实说,我认为任何当前的台式机都会比 T610 更快。

驱动器固件可能会产生影响,但您的阵列会将它们标记为外部磁盘,事实上您一次性更改它们更好,没有戴尔驱动器的固件与原始驱动器混合,控制器不会允许这样做。

磁盘上的固件允许控制器对磁盘执行高级功能,而如果使用带有普通固件的原始磁盘,则阵列将正常运行。

检测到你的阵列这一事实让我认为控制器可以看到并使用它们。这就是为什么我一开始说运气不好。

相关内容