我有一台 Dell T110 服务器,配备 SAS 6i/R 控制器和两个 RAID 1 硬盘。Windows 事件日志中偶尔会出现以下警告消息:
SAS 端口报告:SAS 宽端口 2 在 PHY 2 上丢失链接:控制器 0(SAS 6/iR 适配器)
大约 20 秒后,出现以下信息消息:
SAS 端口报告:SAS 宽端口 2 在 PHY 2 上恢复链接:控制器 0(SAS 6/iR 适配器)
到目前为止,我还没有注意到此服务器上运行的程序出现任何中断。这是控制器或磁盘将来出现问题的征兆吗?你们有人见过这样的情况吗?
更新
昨天,在我发布此问题 3 天后,RAID 1 设置丢失了冗余。在出现上述一系列消息后,记录了以下消息:
(10-07-2012 21:42:42) - 检测到无效的 SAS 配置。详细信息:SAS 拓扑错误:无法寻址的设备。:控制器 0(SAS 6/iR 适配器)
(10-07-2012 21:42:45) - 已发出重置设备 \Device\RaidPort0 的指令。
(10-07-2012 21:43:02) - 设备故障:物理磁盘 0:2 控制器 0,连接器 0
(10-07-2012 21:52:59) - 驱动程序检测到 \Device\RaidPort0 上的控制器错误。
(2012 年 10 月 7 日 21:53:02) - 冗余丢失:虚拟磁盘 1(虚拟磁盘 1)控制器 0(SAS 6/iR 适配器)
(2012 年 10 月 7 日 21:53:02)- 虚拟磁盘已降级:虚拟磁盘 1(虚拟磁盘 1)控制器 0(SAS 6/iR 适配器)
(10-07-2012 21:53:02) - 由于目标物理磁盘上的错误,重建失败。:物理磁盘 0:2 控制器 0,连接器 0
从这些信息中,我们可以推断问题出在阵列的某个磁盘上。我现在正在使用 Dell Online Diagnostics 工具来测试磁盘。其中一个磁盘完成了测试,而另一个磁盘却停留在 20%。所以我想我找到了罪魁祸首。
答案1
正如 Mitch 所建议的,我首先要确保服务器上的所有组件都安装了最新的固件和最新的驱动程序。我们曾遇到过整个硬盘驱动器都出现故障的情况,因为它们没有安装最新的固件(事实上,连续 3 次出现故障,直到戴尔发现实际驱动器上的固件已过期)。这与您的情况无关,但我想说明的是,让您的设备保持最新固件不仅仅是“良好做法”。
只需导航至此处并输入您的服务标签:http://www.dell.com/support/home/us/en/04/home2。
我们已经监控 DELL 事件很多年了,OpenManage 记录的事件不容小觑。您收到的警告很可能表明存在需要解决的问题。
您可能没有注意到任何问题的原因是因为您正在运行 RAID 1。因此,即使完全断开其中一个驱动器也不会导致任何明显的问题,尽管它可能会导致 raid 重建(这也会被记录下来)。
如果在更新所有驱动程序和固件后仍然看到这些事件,我会关闭服务器电源(如果可能),断开并重新连接硬盘电缆。
如果问题仍然存在,那么我会打电话给 DELL,因为这很可能是硬件问题,例如电缆、背板等有缺陷。