我是否应该担心频繁出现的 RAID 警告消息(意外感觉 - 命令中止)?

我是否应该担心频繁出现的 RAID 警告消息(意外感觉 - 命令中止)?

我有一台富士通主机(PRIMERGY RX300 S6),运行 Windows Server 2008 R2 和 Hyper-V(版本 6.1),带有两台虚拟服务器(一台 Windows Server 2008 R2 和一台 Windows Server 2012)。我们的 25 名员工在工作日期间持续连接到虚拟服务器,并在共享文件夹中读取和写入文件。

主机上的存储控制器是 LSI Corp 的 RAID Ctrl SAS 6G 5/6 512MB (D2616)。

最近,我发现 Raid 管理器显示警告消息非常频繁。几乎每分钟一条,有时甚至高达每分钟 15 或 20 条。

每个警告消息如下所示:

-------
Event: Warning
Date: Mar 18, 2015, 1:04:49 PM
Source: TOSHIBA MBF2600RC (1:0)
ID: 10909
Event: Adapter FTS RAID Ctrl SAS 6G 5/6 512MB (D2616) (0): Unexpected sense: 
     Disk (1:0), CDB:28 00 1B 02 B5 80 00 00 80 00, Sense:(command aborted)72 0B 4B 04 00 00 00 20 80 1E 00 28 52 08 01 00 50 03 00 57 00 F3 3F 40 50 06 05 B0 00 02 72 BF 00 01 0C 00 00 00 00 00 
------

不幸的是,我无法找出这个警告信息何时开始出现。

我之所以对这些警告感到有些担心(除了它对我来说看起来很奇怪之外),是因为 Backup Exec 突然开始比平时多花 3-4 个小时才能完成,现在大约需要 22-23 个小时。通过比较作业属性,我可以看到此特定服务器的 Backup Exec 作业速率从大约 800 MB/分钟下降到 550 MB/分钟。

我的硬件提供商告诉我,该消息仅供参考,我们可能应该更换服务器。它已经使用了 3.5 年,我想我们应该在一年内更换它,但我仍然想弄清楚这件事的真相。

答案1

错误解码为 Bh/4Bh/0Bh = ABORTED_COMMAND/NAK_RECEIVED。我编写了自己的工具来解码这些错误,并尝试给出一个基本的评估。http://scsi.ev-en.org/

这些错误表明您在某处有一个坏链接,通常是电缆坏了,但也可能是任一侧的端口(驱动器或插槽)坏了。

答案2

是的,你应该担心。不是极其但要进行调查,并且 - 如果有必要 - 更换一些部件。

SCSI 错误通常产生原因:驱动程序/固件问题或硬件故障。

参考:http://en.wikipedia.org/wiki/Key_Code_Qualifier

不过,SCSI 错误至少意味着“出了问题”。这可能只是一个小问题,但频繁发生的小问题是一个相当大的问题,意味着有更深层次的问题发生了。

相关内容