新硬盘出现非特定内核错误，是硬盘出现故障吗？

Question 1

部分答案：

但是有人知道如何解码日志中的错误吗？

Apr 14 18:07:38 xenon kernel: sd 0:0:0:0: [sda] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Apr 14 18:07:38 xenon kernel: sd 0:0:0:0: [sda] tag#0 Sense Key : Aborted Command [current]
Apr 14 18:07:38 xenon kernel: sd 0:0:0:0: [sda] tag#0 Add. Sense: No additional sense information
Apr 14 18:07:38 xenon kernel: sd 0:0:0:0: [sda] tag#0 CDB: Synchronize Cache(10) 35 00 00 00 00 00 00 00 00 00

SCSI 命令Synchronize Cache(10)失败，设备未报告任何其他信息。这tag表明您可能正在使用 UAS 协议（USB 连接的 SCSI），因此您可以同时执行多个命令。

Apr 14 18:07:38 xenon kernel: blk_update_request: I/O error, dev sda, sector 2056

尝试更新块 2056 时发生了这种情况。

Apr 14 18:07:38 xenon kernel: md: super_written gets error=-5, uptodate=0

这是从md层中调用的。

Apr 14 18:07:38 xenon kernel: md/raid:md127: Disk failure on sda1, disabling device.#012md/raid:md127: Operation continuing on 3 devices.

因此该md层决定踢出该硬盘。

有什么方法可以判断这是驱动器出现故障还是驱动器控制器出现故障？

这真的很难说。考虑到 (a) 这种情况时有发生，(b) 这种情况发生在类似的扇区（即当层md执行类似操作时），以及 (c) 您启用了 UAS，我目前的猜测是驱动程序/固件错误，在并行处理命令时发生，并且出现了开发人员未预料到的奇怪情况。

由于 SMART 值良好，并且可以读取受影响的扇区，因此驱动器在物理上应该是正常的。

因此，我接下来要做的是降低软件交互的复杂性，看看是否有帮助。因此，禁用该驱动器的 UAS（谷歌），运行一段时间，看看错误是否仍然发生。禁用 UAS 可能会稍微降低性能。

Answer

部分答案：

但是有人知道如何解码日志中的错误吗？

Apr 14 18:07:38 xenon kernel: sd 0:0:0:0: [sda] tag#0 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Apr 14 18:07:38 xenon kernel: sd 0:0:0:0: [sda] tag#0 Sense Key : Aborted Command [current]
Apr 14 18:07:38 xenon kernel: sd 0:0:0:0: [sda] tag#0 Add. Sense: No additional sense information
Apr 14 18:07:38 xenon kernel: sd 0:0:0:0: [sda] tag#0 CDB: Synchronize Cache(10) 35 00 00 00 00 00 00 00 00 00

SCSI 命令Synchronize Cache(10)失败，设备未报告任何其他信息。这tag表明您可能正在使用 UAS 协议（USB 连接的 SCSI），因此您可以同时执行多个命令。

Apr 14 18:07:38 xenon kernel: blk_update_request: I/O error, dev sda, sector 2056

尝试更新块 2056 时发生了这种情况。

Apr 14 18:07:38 xenon kernel: md: super_written gets error=-5, uptodate=0

这是从md层中调用的。

Apr 14 18:07:38 xenon kernel: md/raid:md127: Disk failure on sda1, disabling device.#012md/raid:md127: Operation continuing on 3 devices.

因此该md层决定踢出该硬盘。

有什么方法可以判断这是驱动器出现故障还是驱动器控制器出现故障？

这真的很难说。考虑到 (a) 这种情况时有发生，(b) 这种情况发生在类似的扇区（即当层md执行类似操作时），以及 (c) 您启用了 UAS，我目前的猜测是驱动程序/固件错误，在并行处理命令时发生，并且出现了开发人员未预料到的奇怪情况。

由于 SMART 值良好，并且可以读取受影响的扇区，因此驱动器在物理上应该是正常的。

因此，我接下来要做的是降低软件交互的复杂性，看看是否有帮助。因此，禁用该驱动器的 UAS（谷歌），运行一段时间，看看错误是否仍然发生。禁用 UAS 可能会稍微降低性能。

Question 2

使用 smartctl -x，而不是 smartctl -a

您将看到驱动器内部以这种方式记录的错误 - 很有可能是 IDNF 错误。

这是 WD固件他们目前拒绝承认错误，并且在上面该驱动器是伪装成 CMR 单元的 DM-SMR 的问题。

Answer

使用 smartctl -x，而不是 smartctl -a

您将看到驱动器内部以这种方式记录的错误 - 很有可能是 IDNF 错误。

这是 WD固件他们目前拒绝承认错误，并且在上面该驱动器是伪装成 CMR 单元的 DM-SMR 的问题。

Question 3

只是想提供一点结论。SMR 与 CMR 的问题现在常识，所以我猜测这个问题（加上上面提到的可能的固件问题）可能是导致我遇到问题的原因。我联系了 WD，询问他们是否愿意用等效的 EFRX 型号替换我的硬盘（因为该型号使用 CMR）。由于硬盘仍在零售商的退货政策期限内，他们建议我退货。由于手头没有替换品（因为它们包含数据），我无法退货，所以我订购了四个全新的 WD Red Pro 4TB 硬盘作为替代品。我想我会再给 WD 一次机会，而且 Pro 硬盘肯定不会有同样的问题（注意这是前WD 发布了有关哪些驱动器使用每种技术的详细信息）...

我收到了新硬盘，并立即使用 SMART Tools 和坏块对它们进行了测试。每个硬盘都返回了大量错误。每个。单个。硬盘。有人认为这可能是由于运输过程中的粗暴处理造成的，但无论如何——我现在有四个更多的驱动器需要退货。我将这些驱动器作为有缺陷的驱动器退回给零售商，但此时我即将用尽我的原始 EFAX 驱动器的退货期限。我无法获得一组新的驱动器，对其进行测试，将它们交换到我的阵列中，然后在剩余的退货期限内擦除原始驱动器。

我回到我原来的 WD 票并解释了情况，我再次要求他们用 EFRX 版本退回我原来的驱动器。而且...他们同意了！我有点惊讶，但支持人员确实同意退回我的 EFAX 驱动器。我告诉他们我实际上有四个 EFAX 驱动器，并询问他们是否可以为 EFRX 版本退回所有四个驱动器，他们也同意了。最后，我请求提前退回，这样我就可以现在收到新驱动器，然后在更换完所有驱动器后再寄回旧驱动器。他们也同意了。

后来，支持人员再次联系我，告诉我他们的仓库中目前 EFRX 型号缺货，但很快就会有货。所以他们给了我等待或购买 Red Pro 驱动器（而不是 EFRX 驱动器）的选择。我很高兴购买了 Red Pro 版本，并于上周收到了它们。所有这些驱动器都通过了 SMART Tools 和坏块测试，我已成功将它们交换到我的阵列中。新阵列上线时间不长，但我希望不会再出现任何问题。所以我很高兴 WD（最终）尝试纠正问题。当然，这并不能成为他们最初行为的借口，但至少他们似乎正在听取一些批评意见。

Answer

只是想提供一点结论。SMR 与 CMR 的问题现在常识，所以我猜测这个问题（加上上面提到的可能的固件问题）可能是导致我遇到问题的原因。我联系了 WD，询问他们是否愿意用等效的 EFRX 型号替换我的硬盘（因为该型号使用 CMR）。由于硬盘仍在零售商的退货政策期限内，他们建议我退货。由于手头没有替换品（因为它们包含数据），我无法退货，所以我订购了四个全新的 WD Red Pro 4TB 硬盘作为替代品。我想我会再给 WD 一次机会，而且 Pro 硬盘肯定不会有同样的问题（注意这是前WD 发布了有关哪些驱动器使用每种技术的详细信息）...

我收到了新硬盘，并立即使用 SMART Tools 和坏块对它们进行了测试。每个硬盘都返回了大量错误。每个。单个。硬盘。有人认为这可能是由于运输过程中的粗暴处理造成的，但无论如何——我现在有四个更多的驱动器需要退货。我将这些驱动器作为有缺陷的驱动器退回给零售商，但此时我即将用尽我的原始 EFAX 驱动器的退货期限。我无法获得一组新的驱动器，对其进行测试，将它们交换到我的阵列中，然后在剩余的退货期限内擦除原始驱动器。

我回到我原来的 WD 票并解释了情况，我再次要求他们用 EFRX 版本退回我原来的驱动器。而且...他们同意了！我有点惊讶，但支持人员确实同意退回我的 EFAX 驱动器。我告诉他们我实际上有四个 EFAX 驱动器，并询问他们是否可以为 EFRX 版本退回所有四个驱动器，他们也同意了。最后，我请求提前退回，这样我就可以现在收到新驱动器，然后在更换完所有驱动器后再寄回旧驱动器。他们也同意了。

后来，支持人员再次联系我，告诉我他们的仓库中目前 EFRX 型号缺货，但很快就会有货。所以他们给了我等待或购买 Red Pro 驱动器（而不是 EFRX 驱动器）的选择。我很高兴购买了 Red Pro 版本，并于上周收到了它们。所有这些驱动器都通过了 SMART Tools 和坏块测试，我已成功将它们交换到我的阵列中。新阵列上线时间不长，但我希望不会再出现任何问题。所以我很高兴 WD（最终）尝试纠正问题。当然，这并不能成为他们最初行为的借口，但至少他们似乎正在听取一些批评意见。

新硬盘出现非特定内核错误，是硬盘出现故障吗？

答案1

答案2

答案3

相关内容