在我客户的办公室里,一名 IT 人员为升级服务器硬盘(Windows 2003 RC2)而彻底失败后,我们的服务器现在基本上无法使用了。机器可以启动,但大约一个小时后,某物不知道发生了什么,任务管理器中的第二个 CPU 完全变红。内核模式和 CPU 使用率达到 100%。
系统事件日志中每分钟都会出现 4-5 个此错误:
设备 \Device\Scsi\viamraid1 的驱动程序检测到由于长时间不活动而导致的端口超时。所有相关总线都已重置以清除该情况。
我今天离开后甚至让它运行了 9 个小时,在此期间收到了 2000 多条消息。
服务器无法使用,导致我的客户完全无法开展业务。我不是 IT 人员(我是程序员),现在是感恩节,我完全不适应。
有人对这条消息有什么想法吗?以前见过吗?解决过吗?
更多信息:服务器在 RAID 0(我想是 RAID 1)阵列中有 2 个驱动器。SCSI 驱动器。之前的 IT 人员搞得太乱了,他把驱动器从 RAID 中取出来,现在启动时,它必须启动到驱动器 0 才能读取 boot.ini,然后我们必须选择从驱动器 1 启动。出于某种原因,我们不能只启动到驱动器 1。
起初我以为问题与 SQL Server 有关,因为就在服务器崩溃之前,我们启动了一个密集查询,但即使在我停止所有 SQL 服务、重新启动等之后,它仍然在一小时后自行崩溃。服务器上什么也没有发生。我的意思是,没有人在办公室,没有启动任何进程(据我所知),等等。只是崩溃了。
答案1
这是 VIA SATA 芯片组,这让我在“服务器”中感到毛骨悚然。它与各种硬件都存在已知兼容性问题,从产生超出 VIA 规格电压的电源到具有特定固件的 Seagate HD。如果您可以在两个驱动器之间进行选择,则说明您没有使用硬件 RAID,可能是软件,但如果没有更多信息就无法判断。
一个不寻常的猜测:该芯片组与新硬盘不兼容,当它们进行部分自我检测时,芯片组会出现超时错误(似乎在正确的时间范围内)。
我会先寻找主板、芯片组和硬盘的最新固件,然后再寻找芯片组和 SATA 控制器的最新驱动程序。