如何解释此 smartctl (smartmon) 数据

Question 1

根据我的经验，希捷硬盘的这两个 SMART 属性的数字很奇怪。在诊断希捷硬盘时，我倾向于忽略这两个属性，而更仔细地查看其他字段，例如“重新分配扇区数”。当然，如果有疑问，请更换硬盘，但即使是全新的希捷硬盘，这两个属性的数字也会很高。

Answer

根据我的经验，希捷硬盘的这两个 SMART 属性的数字很奇怪。在诊断希捷硬盘时，我倾向于忽略这两个属性，而更仔细地查看其他字段，例如“重新分配扇区数”。当然，如果有疑问，请更换硬盘，但即使是全新的希捷硬盘，这两个属性的数字也会很高。

Question 2

对于 Seagate 磁盘（也可能是 WD 的一些旧磁盘），Seek_Error_Rate 和 Raw_Read_Error_Rate 是 48 位数字，其中最高的 16 位是错误计数，低 32 位是操作数。

% python
>>> 200009354607 & 0xFFFFFFFF
2440858991
>>> (200009354607 & 0xFFFF00000000) >> 32
46

因此，您的磁盘已执行 2440858991 次寻道，其中 46 次失败。我对 Seagate 硬盘的经验是，当错误数超过 1000 时，它们往往会失败。YMMV。

Answer

对于 Seagate 磁盘（也可能是 WD 的一些旧磁盘），Seek_Error_Rate 和 Raw_Read_Error_Rate 是 48 位数字，其中最高的 16 位是错误计数，低 32 位是操作数。

% python
>>> 200009354607 & 0xFFFFFFFF
2440858991
>>> (200009354607 & 0xFFFF00000000) >> 32
46

因此，您的磁盘已执行 2440858991 次寻道，其中 46 次失败。我对 Seagate 硬盘的经验是，当错误数超过 1000 时，它们往往会失败。YMMV。

Question 3

除了 Seagate 的支持人员之外，对于其他人来说，“寻道错误率”和“原始读取错误率”RAW_VALUES 几乎毫无意义。正如其他人指出的那样，“重新分配的扇区数”等参数的原始值或驱动器错误日志中的条目更有可能指示更高的故障概率。

但是您可以查看 VALUE、WORST 和 THRESH 列中的解释数据，这些数据应被读作仪表：

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH
  7 Seek_Error_Rate         0x000f   077   060   030

这意味着您的寻道错误率目前被认为是“77% 良好”，当它达到“30% 良好”时，SMART 会将其报告为问题。它曾经一度低至“60% 良好”，但此后奇迹般地恢复了。请注意，解释的值是由驱动器的 SMART 逻辑内部计算的，确切的计算结果可能会或可能不会由制造商公布，并且通常无法由用户调整。

就我个人而言，我认为包含错误日志条目的驱动器“出现故障”，并敦促在出现故障时立即更换。但总的来说，SMART 数据已被证明是一个相当弱的故障预测指标，因为谷歌发表的研究论文裸露。

Answer

除了 Seagate 的支持人员之外，对于其他人来说，“寻道错误率”和“原始读取错误率”RAW_VALUES 几乎毫无意义。正如其他人指出的那样，“重新分配的扇区数”等参数的原始值或驱动器错误日志中的条目更有可能指示更高的故障概率。

但是您可以查看 VALUE、WORST 和 THRESH 列中的解释数据，这些数据应被读作仪表：

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH
  7 Seek_Error_Rate         0x000f   077   060   030

这意味着您的寻道错误率目前被认为是“77% 良好”，当它达到“30% 良好”时，SMART 会将其报告为问题。它曾经一度低至“60% 良好”，但此后奇迹般地恢复了。请注意，解释的值是由驱动器的 SMART 逻辑内部计算的，确切的计算结果可能会或可能不会由制造商公布，并且通常无法由用户调整。

就我个人而言，我认为包含错误日志条目的驱动器“出现故障”，并敦促在出现故障时立即更换。但总的来说，SMART 数据已被证明是一个相当弱的故障预测指标，因为谷歌发表的研究论文裸露。

Question 4

我意识到这个讨论有点过时了，但我想补充一下我的看法。我发现智能信息是预故障的一个很好的指标。当智能阈值被触发时，请更换驱动器。这就是这些阈值的用途。

绝大多数情况下，您都会开始看到坏扇区。这是驱动器开始出现故障的明确信号。SMART 曾多次拯救了我。我使用软件 RAID 1，它非常有用，因为您只需更换故障驱动器并重建阵列即可。

我每周还会进行短期和长期的自我测试。

smartctl -t short /dev/sda
smartctl -t long /dev/sda

或者添加 /etc/smartd.conf，如果有错误，它会给你发送电子邮件

/dev/sda -s L/../../3/22 -I 194 -m someemail@somedomain
/dev/sdb -s L/../../7/22 -I 194 -m someemail@somedomain

确保安装 logwatch 并将 root 重定向到电子邮件地址并检查来自 logwatch 的每日电子邮件。SMARTD 触发标志将显示在那里，但如果没有人定期监控它，它就毫无用处。

Answer

我意识到这个讨论有点过时了，但我想补充一下我的看法。我发现智能信息是预故障的一个很好的指标。当智能阈值被触发时，请更换驱动器。这就是这些阈值的用途。

绝大多数情况下，您都会开始看到坏扇区。这是驱动器开始出现故障的明确信号。SMART 曾多次拯救了我。我使用软件 RAID 1，它非常有用，因为您只需更换故障驱动器并重建阵列即可。

我每周还会进行短期和长期的自我测试。

smartctl -t short /dev/sda
smartctl -t long /dev/sda

或者添加 /etc/smartd.conf，如果有错误，它会给你发送电子邮件

/dev/sda -s L/../../3/22 -I 194 -m someemail@somedomain
/dev/sdb -s L/../../7/22 -I 194 -m someemail@somedomain

确保安装 logwatch 并将 root 重定向到电子邮件地址并检查来自 logwatch 的每日电子邮件。SMARTD 触发标志将显示在那里，但如果没有人定期监控它，它就毫无用处。

相关内容