解读每天新安装的 NVMe RAID0 崩溃的 SMART 日志

2024-6-2 • tag-icon

Ubuntu 20.04 系统已经稳定运行了一年，直到主板上安装了第二和第三个 NVMe 驱动器以形成 2x1TB RAID0 阵列。从那时起，这个 RAID0 阵列每天 24 小时都有大量 IO 负载，系统每天大约崩溃一次。

nvme smart-logs /dev/nvme1n1并且nvme smart-logs /dev/nvme1n2包含一些非零条目，特别num_err_log_entries是Thermal Management T1 Trans Count和Thermal Management T1 Total Time。

这 3 个条目均位于0机器中现有的第一个 NVMe 驱动器中。

这 3 个条目是什么意思？我们如何检查num_err_log_entries正在跟踪的错误日志？

这是一个值得担心的问题吗？

$ sudo nvme smart-log /dev/nvme1n1
Smart Log for NVME device:nvme1n1 namespace-id:ffffffff
critical_warning                    : 0
temperature                         : 60 C
available_spare                     : 100%
available_spare_threshold           : 5%
percentage_used                     : 3%
data_units_read                     : 100,951,144
data_units_written                  : 107,072,517
host_read_commands                  : 152,100,781
host_write_commands                 : 179,955,901
controller_busy_time                : 1,376
power_cycles                        : 6
power_on_hours                      : 115
unsafe_shutdowns                    : 5
media_errors                        : 0
num_err_log_entries                 : 18
Warning Temperature Time            : 0
Critical Composite Temperature Time : 0
Thermal Management T1 Trans Count   : 2
Thermal Management T2 Trans Count   : 0
Thermal Management T1 Total Time    : 131395
Thermal Management T2 Total Time    : 0

~$ sudo nvme smart-log /dev/nvme2n1
Smart Log for NVME device:nvme2n1 namespace-id:ffffffff
critical_warning                    : 0
temperature                         : 64 C
available_spare                     : 100%
available_spare_threshold           : 5%
percentage_used                     : 3%
data_units_read                     : 100,952,564
data_units_written                  : 107,069,314
host_read_commands                  : 152,056,852
host_write_commands                 : 179,238,524
controller_busy_time                : 1,885
power_cycles                        : 6
power_on_hours                      : 120
unsafe_shutdowns                    : 5
media_errors                        : 0
num_err_log_entries                 : 18
Warning Temperature Time            : 0
Critical Composite Temperature Time : 0
Thermal Management T1 Trans Count   : 5
Thermal Management T2 Trans Count   : 0
Thermal Management T1 Total Time    : 169552
Thermal Management T2 Total Time    : 0

答案1

我猜测可能是电脑外壳通风太差，环境温度超出了新硬盘的工作温度范围。这会触发设备的热保护，从而可能出现故障并导致崩溃。

崩溃的另一个原因可能是操作系统磁盘驱动程序无法正确处理热管理事件。

答案1

相关内容