两个系统冻结:可能是 RAID/MB sata 控制器故障?

两个系统冻结:可能是 RAID/MB sata 控制器故障?

我有两个系统,它们的年龄大致相同,但存在类似的问题:

第一个系统:

ASUS P8h67-m-le 母版 r3 版本 i7 2600 (3,4ghz)
8gb ram ddr 3 (2x4gb 双通道) RAID 1 通过英特尔 RST 配备 2 个 hd 1TB WD Green Coolermaster 600W psu Windows 7 64 位专业版 (原始许可证)。系统通过 10kva UPS 保护免受电涌影响

症状:

系统运行良好,已经快 3 年了。上个月,由于应用程序挂起导致电源故障,RAID 降级并重建。之后,使用正常电源开关和开机,在关机时降级并重建了几次。过去两周,系统开始挂起(完全冻结,有时鼠标指针也会冻结,而其他鼠标仍在移动)。[显然冻结频率正在增加]
之后我不得不重置系统。每次它开始重新生成 RAID 1(重建 RAID 需要四个小时),现在它每天冻结一次左右。

我已经测试过的内容:

  • 新的 RAM 和新的 PSU 也存在同样的问题。
  • 显然,没有 RAID(移除 1 个硬盘)似乎可以解决问题。
  • HDD 没问题(在其他系统中通过压力测试、短自检和长自检进行了测试)。查看智能日志似乎也没什么问题。
  • 压力测试处理器已通过。
  • 检查温度正常,系统没有过热。
  • 将一个硬盘移动到另一个具有英特尔 RST 的系统,但无法访问它(Bios 可以看到驱动器,控制器看不到,但 Windows 硬件管理器可以显示它),将同一个驱动器移动到另一个没有英特尔 RST 的系统,可以访问它吗???
  • 将服务器应用程序移动到其他类似系统可以解决问题,所以它不是应用程序问题,而是与硬件有关。

问题:系统冻结时,Windows 事件日志中没有显示任何信息。没有应用程序挂起、没有 RAID 故障,什么都没有。Windows 上的 RST 日志没有关于哪个硬盘不同步的详细信息,只是状态降低(至少在我的系统中)。

我注意到一件奇怪的事情:向系统添加另一个内部硬盘(在 RAID 之外进行备份)似乎会触发 RAID 降级并开始重新生成 RAID 1。

我猜 MB 失败了

第二系统:

I5 处理器现在无法回忆起规格 Asus MB h81m-k RAID 通过软件 Windows 7 64 位。8GB 内存 2x 1TB HDD 鱼子酱蓝色

症状:服务器运行良好,大约 2 年。一个月前:服务器 Windows RAID 不同步,尝试重新同步从未完成(等待四天)
服务器应用程序开始频繁挂起(无需重新启动,只需重新打开应用程序)或关闭终端连接。将服务器应用程序移动到其他类似系统确实解决了问题,所以这不是应用程序问题。

我进行过的测试:

在系统中格式化一个硬盘(格式化花了一天多时间,但从未完成)。所以我移除了硬盘(不同步的硬盘,并在另一个系统上尝试)。格式化在正常时间结束。看起来很聪明,似乎没问题。将该硬盘移至系统并再次尝试重新同步软 RAID:从未完成驱动器的重新同步。更换 PSU 和 RAM 无法解决问题移除不同步的硬盘也无法解决问题,因为应用程序无论如何都会挂起。


两个系统的共同点是:

  • 大约两年的使用时间
  • 大量 HDD 读/写
  • 服务器应用程序不同
  • 同一品牌的硬盘。
  • HDD 在其他系统上看起来不错。
  • 同一操作系统均为合法副本
  • 内存和电源不是原因。
  • MB 上无视觉损坏迹象
  • 没有人触碰系统内部。

我的猜测是,由于不同 raid 类型的性质,sata 端口/控制器无法处理密集的 HDD 活动,并且随着时间的推移,其性能会下降/损坏,从而产生在两个系统上看起来不同的故障。

答案1

不要一遍又一遍地重建您的 raid!找出卡导致驱动器故障的原因并(最有可能)更换驱动器。您可以使用名为 smartctl 的命令行实用程序来检查驱动器 - 如果有超过 500-1000 个错误,或者错误数量不断增加,那么可能是时候更换驱动器了。

如果您在将 raid 驱动器停靠到其他驱动器后必须重建它,那是因为 raid 特定信息有点混乱(dell/LSI perc 卡在驱动器上有这部分额外数据,但我从未通过手动安装驱动器触发重建)。最后,各种硬件问题都可能导致系统冻结。损坏的 raid 卡可能会导致冻结,硬盘驱动器的电气问题或硬盘驱动器的控制器问题也会导致冻结。偶尔,文件系统损坏问题会触发内核崩溃转储,但如果这是问题的原因,那应该是非常明显和明显的。我曾经看到过一件奇怪的事情,硬盘驱动器上磨损的轴承产生的热量导致计算机的温度问题(笔记本电脑容易出现这种情况) - 就像磨损的硬盘驱动器可能导致视频卡的温度问题,从而完全冻结一切。检查机器冻结前内核消息(Debian/Ubuntu 上的 /var/log/kern)不会有什么坏处。电源功率不足可能会导致崩溃。一般来说,尝试禁用不需要的硬件,直到系统停止崩溃:)。

相关内容