我们正在开展一个项目,该项目涉及托管在一个机架中的不同硬件。这些机器主要是 IBM 服务器:2 x206 (scsi)、1 x226(scsi)、2 x3400(sata) 和另一台带有 sata 控制器的组装机器。我们使用多个 raid 控制器。有些机器只有一个 Serveraid 控制器,其他机器有一个或多个控制器(并非总是 Adaptec 控制器)。所有固件和 BIOS 都已更新。所有服务器和连接设备都在 ups 下。
在过去的 4 个月中,我们的硬件出现了几次奇怪的现象。突然随机丢失了 2 或 3 个驱动器,RAID 卷停止工作。这种情况可能每周发生一次,但绝不会在同一天或同一周发生。
大多数情况下,重建过程可以解决问题,但有时我们会丢失数据。通常我们只需要拔下 RAID 控制器,重新启动服务器,问题就解决了。
一开始我们以为是固件错误,但我们对每台机器和 RAID 控制器进行了精确更新,对硬件我们无能为力。我们真的不知道是什么导致了所有这些麻烦。
我们开始认为这是一个环境问题,但我们不知道是否有东西干扰了我们的硬件。你听说过这样的事情吗?你知道如何调查这个问题吗?
答案1
这很可能是由于固件错误造成的,不是控制器上的,而是驱动器上的。这种情况太常见了,数不胜数。
答案2
如果我来自不同供应商的服务器中的 RAID 控制器上安装了来自不同供应商的驱动器,并且这些驱动器出现异常频率,那么我会开始将服务器机房中的高温和气流不畅视为问题的潜在原因。