多台服务器上的 dmesg 中出现相同的硬盘问题

多台服务器上的 dmesg 中出现相同的硬盘问题

我们有几个这些 SuperMicro MicroCloud 单元

我们总共有 16 台服务器(2x8),它们都会在 dmesg 中随机发出这些消息:

[4661350.802707] ata2.00: failed command: WRITE FPDMA QUEUED
[4661350.802734] ata2.00: cmd 61/00:28:00:d0:fc/04:00:0f:00:00/40 tag 5 ncq 524288 out
[4661350.802735]          res 40/00:0c:00:f8:fc/00:00:0f:00:00/40 Emask 0x10 (ATA bus error)
[4661350.802821] ata2.00: status: { DRDY }

即使有错误,一切似乎都很好,但忽略它们感觉非常不对。这种情况大多发生在磁盘活动高峰期。

在一台服务器上,即使在磁盘活动高峰期间,它也随机停止。

谷歌搜索显示这可能是由于连接器松动或驱动器故障造成的,但它发生在 16 台不同的服务器上,甚至使用不同类型的硬盘(八台使用 7200 RPM WD Black SATA 硬盘,另外八台使用 10000 RPM VelociRaptors)。

我们尝试了两个不同的 Linux 内核,2.6.32(Debian Squeeze)和 3.2.44(Debian Wheezy)。

服务器供应商建议升级到最新的 BIOS,但我们已经在运行它了。

所以现在我们陷入困境:) 有人有什么建议吗?

完整 dmesg:http://pastebin.com/Z9k1kXbc

更新: 吉姆·加里森指给我看AskUbuntu 问题他们提到英特尔芯片组存在缺陷。我现在担心我们受到这个问题的影响,尽管这个问题早在 2011 年就被发现了。(这些服务器是在 2012 年第四季度制造的,但 SuperMicro 可能有一批 2011 年的旧产品——他们自己制造主板)。

“lspci”给了我这个:

00:00.0 Host bridge: Intel Corporation Sandy Bridge DMI2 (rev 07)
00:1f.2 SATA controller: Intel Corporation Patsburg 6-Port SATA AHCI Controller (rev 06)

一篇 softpedia 新闻文章提到“rev04”受到影响。我是否应该从 lspci 中的“rev 07”推断出我​​们没有受到影响?

2013 年 6 月英特尔勘误表提到一些类似的问题:

由于英特尔 6 系列芯片组和英特尔 C200 系列芯片组的电路设计问题,电气寿命磨损可能会影响 SATA 端口 2-5 的时钟分布。这可能会随着时间的推移表现为 SATA 端口 2-5 的功能问题。

在勘误表中,芯片组被命名为“Intel® Q67 芯片组”、“Intel® Q65 芯片组”等。如何从 Debian 命令提示符中找出我拥有哪种芯片组(如此命名)?

更新: 我现在已经找到了芯片组的正确勘误表,我想。(它是 BD82C602J)。看来没有什么太严重的问题。

答案1

在我看来,这肯定是控制器的问题。希望您还有保修。这是总线错误,而不是驱动器无响应(驱动器控制器板和边缘电缆(或背板)通常会出现这种情况);看起来是系统板的问题。

您还可以尝试刷新 BIOS(即使是相同的版本)以排除某种 BIOS 损坏。

我相信这样做的结果只是重置并继续,所以你可能不必担心,尽管这会对性能产生负面影响。它还可能随着时间的推移而恶化。

相关内容