解密持续的 mpt2sas 系统日志消息

Question 1

最有可能的情况是磁盘之间以及包括 sas raid 控制器在内的某个地方存在硬件问题。我建议尝试：

运行供应商提供的任何诊断工具（如果可用）
检查/重新安装/更换电缆
去掉硬件组件并换掉连接磁盘到你的 raid 控制器的链中的硬件，包括控制器本身（即，对于你来说，尝试主板集成 raid 以外的其他东西）。

我有两个相同的 Dell PowerEdge R515 中的一个，它们发出了非常相似的消息（日志定期填充 mpt2sas0 消息，尽管我没有确切的数字代码）。Dell 自己的可启动诊断程序将这些消息识别为“硬件错误”，更换 RAID sas 背板解决了该问题。

当我进行调查时，我找不到有关各种 mpt2sas0 错误代码含义的全面资源。我怀疑它们甚至可能是特定于硬件供应商的（需要更了解 SAS 的人来确认或否认这一点）。因此，您的错误代码可能意味着完全不同的东西，但如果 SMART 是干净的，很难想象 mpt2sas0 报告错误代码的其他好理由。

这些错误可能非常严重。我的 R515 在使用 12 磁盘 Ubuntu Linux 软件 raid 6 的情况下，似乎可以正常工作一周，但后来突然将所有 12 个磁盘弹出阵列，因为它们已损坏（！）

在我的情况下，所有磁盘的 SMART 都完全干净。一个好的检查是进行智能自我诊断测试：smartctl -t long /dev/sdX，然后在大约一天后使用检查结果smartctl -l selftest /dev/sdX。如果一切正常，测试应该显示Completed并且LBA_first_err列应该为空。

Answer

最有可能的情况是磁盘之间以及包括 sas raid 控制器在内的某个地方存在硬件问题。我建议尝试：

运行供应商提供的任何诊断工具（如果可用）
检查/重新安装/更换电缆
去掉硬件组件并换掉连接磁盘到你的 raid 控制器的链中的硬件，包括控制器本身（即，对于你来说，尝试主板集成 raid 以外的其他东西）。

我有两个相同的 Dell PowerEdge R515 中的一个，它们发出了非常相似的消息（日志定期填充 mpt2sas0 消息，尽管我没有确切的数字代码）。Dell 自己的可启动诊断程序将这些消息识别为“硬件错误”，更换 RAID sas 背板解决了该问题。

当我进行调查时，我找不到有关各种 mpt2sas0 错误代码含义的全面资源。我怀疑它们甚至可能是特定于硬件供应商的（需要更了解 SAS 的人来确认或否认这一点）。因此，您的错误代码可能意味着完全不同的东西，但如果 SMART 是干净的，很难想象 mpt2sas0 报告错误代码的其他好理由。

这些错误可能非常严重。我的 R515 在使用 12 磁盘 Ubuntu Linux 软件 raid 6 的情况下，似乎可以正常工作一周，但后来突然将所有 12 个磁盘弹出阵列，因为它们已损坏（！）

在我的情况下，所有磁盘的 SMART 都完全干净。一个好的检查是进行智能自我诊断测试：smartctl -t long /dev/sdX，然后在大约一天后使用检查结果smartctl -l selftest /dev/sdX。如果一切正常，测试应该显示Completed并且LBA_first_err列应该为空。

Question 2

哇，好困难啊。

这似乎表明 0x31120303 是由于您的某个设备负载过重而导致的总线重置。它还说您不必担心。（哈哈，是的。）

这表示这些日志消息的发生是因为您的某个设备响应命令的时间太长。这表达了同样的意思，并且还表明这种情况发生在高负载下。

虽然这不是一个完整的答案，但希望它能为您指明有用的方向。

Answer

哇，好困难啊。

这似乎表明 0x31120303 是由于您的某个设备负载过重而导致的总线重置。它还说您不必担心。（哈哈，是的。）

这表示这些日志消息的发生是因为您的某个设备响应命令的时间太长。这表达了同样的意思，并且还表明这种情况发生在高负载下。

虽然这不是一个完整的答案，但希望它能为您指明有用的方向。

Question 3

这意味着磁盘上出现了一些错误，它是 LSI 的 SAS 控制器中的 SATA 磁盘，并且由于该错误，所有未完成的请求都被中止。

在大多数情况下，磁盘上存在中等错误，这是导致此错误的诱因。此错误本身并不意味着中等错误，您需要检查日志以获取其他提示，以找出原始磁盘故障的根源。

稍微详细一点的版本如下：http://blog.disksurvey.org/blog/2014/03/27/sata-handling-of-medium-errors-log-info-0x0x31080000/

Answer

这意味着磁盘上出现了一些错误，它是 LSI 的 SAS 控制器中的 SATA 磁盘，并且由于该错误，所有未完成的请求都被中止。

在大多数情况下，磁盘上存在中等错误，这是导致此错误的诱因。此错误本身并不意味着中等错误，您需要检查日志以获取其他提示，以找出原始磁盘故障的根源。

稍微详细一点的版本如下：http://blog.disksurvey.org/blog/2014/03/27/sata-handling-of-medium-errors-log-info-0x0x31080000/

解密持续的 mpt2sas 系统日志消息

概括

硬件

软件

笔记

答案1

答案2

答案3

相关内容