可能是 RAID 问题?导致服务器在运行一小时左右后无响应

可能是 RAID 问题?导致服务器在运行一小时左右后无响应

在我客户的办公室里,一名 IT 人员为升级服务器硬盘(Windows 2003 RC2)而彻底失败后,我们的服务器现在基本上无法使用了。机器可以启动,但大约一个小时后,某物不知道发生了什么,任务管理器中的第二个 CPU 完全变红。内核模式和 CPU 使用率达到 100%。

系统事件日志中每分钟都会出现 4-5 个此错误:

设备 \Device\Scsi\viamraid1 的驱动程序检测到由于长时间不活动而导致的端口超时。所有相关总线都已重置以清除该情况。

我今天离开后甚至让它运行了 9 个小时,在此期间收到了 2000 多条消息。

服务器无法使用,导致我的客户完全无法开展业务。我不是 IT 人员(我是程序员),现在是感恩节,我完全不适应。

有人对这条消息有什么想法吗?以前见过吗?解决过吗?

更多信息:服务器在 RAID 0(我想是 RAID 1)阵列中有 2 个驱动器。SCSI 驱动器。之前的 IT 人员搞得太乱了,他把驱动器从 RAID 中取出来,现在启动时,它必须启动到驱动器 0 才能读取 boot.ini,然后我们必须选择从驱动器 1 启动。出于某种原因,我们不能只启动到驱动器 1。

起初我以为问题与 SQL Server 有关,因为就在服务器崩溃之前,我们启动了一个密集查询,但即使在我停止所有 SQL 服务、重新启动等之后,它仍然在一小时后自行崩溃。服务器上什么也没有发生。我的意思是,没有人在办公室,没有启动任何进程(据我所知),等等。只是崩溃了。

答案1

这是 VIA SATA 芯片组,这让我在“服务器”中感到毛骨悚然。它与各种硬件都存在已知兼容性问题,从产生超出 VIA 规格电压的电源到具有特定固件的 Seagate HD。如果您可以在两个驱动器之间进行选择,则说明您没有使用硬件 RAID,可能是软件,但如果没有更多信息就无法判断。

一个不寻常的猜测:该芯片组与新硬盘不兼容,当它们进行部分自我检测时,芯片组会出现超时错误(似乎在正确的时间范围内)。

我会先寻找主板、芯片组和硬盘的最新固件,然后再寻找芯片组和 SATA 控制器的最新驱动程序。

相关内容