增加 NVMe SSD 上的“错误日志条目数量”

2024-11-13 • tag-icon

我笔记本电脑上的 smartd(8) 提醒我 /dev/nvme0 上的“错误日志条目数”每天增加约 8 条。输出smartctl -a /dev/nvme0如下：

smartctl 7.2 2020-12-30 r5155 [x86_64-linux-6.4.0-060400rc4-generic] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       SAMSUNG MZVLB1T0HBLR-000L2
Serial Number:                      S4DZNX0R997671
Firmware Version:                   3L1QEXF7
PCI Vendor/Subsystem ID:            0x144d
IEEE OUI Identifier:                0x002538
Total NVM Capacity:                 1,024,209,543,168 [1.02 TB]
Unallocated NVM Capacity:           0
Controller ID:                      4
NVMe Version:                       1.3
Number of Namespaces:               1
Namespace 1 Size/Capacity:          1,024,209,543,168 [1.02 TB]
Namespace 1 Utilization:            207,072,522,240 [207 GB]
Namespace 1 Formatted LBA Size:     512
Namespace 1 IEEE EUI-64:            002538 8911b6e186
Local Time is:                      Thu Jun 15 10:12:23 2023 MSK
Firmware Updates (0x16):            3 Slots, no Reset required
Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test
Optional NVM Commands (0x005f):     Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Log Page Attributes (0x03):         S/H_per_NS Cmd_Eff_Lg
Maximum Data Transfer Size:         512 Pages
Warning  Comp. Temp. Threshold:     84 Celsius
Critical Comp. Temp. Threshold:     85 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     8.00W       -        -    0  0  0  0        0       0
 1 +     6.30W       -        -    1  1  1  1        0       0
 2 +     3.50W       -        -    2  2  2  2        0       0
 3 -   0.0760W       -        -    3  3  3  3      210    1200
 4 -   0.0050W       -        -    4  4  4  4     2000    8000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        50 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    0%
Data Units Read:                    57,117,910 [29.2 TB]
Data Units Written:                 4,531,539 [2.32 TB]
Host Read Commands:                 754,410,384
Host Write Commands:                127,604,849
Controller Busy Time:               1,014
Power Cycles:                       1,123
Power On Hours:                     450
Unsafe Shutdowns:                   139
Media and Data Integrity Errors:    0
Error Information Log Entries:      1,236
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               50 Celsius
Temperature Sensor 2:               47 Celsius
Thermal Temp. 1 Transition Count:   27
Thermal Temp. 1 Total Time:         1121

Error Information (NVMe Log 0x01, 16 of 64 entries)
Num   ErrCount  SQId   CmdId  Status  PELoc          LBA  NSID    VS
  0       1236     0  0x8009  0x4004      -            0     0     -

未发现其他警报（类似那篇帖子或类似方法）在系统日志中；特别是，没有可见的写入（或读取）错误等。但这种烦恼并不常见，因为笔记本电脑自 2022 年 4 月以来一直正常工作，而在过去 30 天内错误数量从 988 增加到 1236。

鉴于 SSD 存储了一些有价值的数据，有什么值得担心的吗？如果现在没有，那么哪个错误率应该让我感到震惊？这是联想 IdeaPad 5 Pro（查看完整硬件信息那里）。

答案1

通常您可以忽略错误日志条目，例如，它可能是由于主机向 NVMe 驱动器发送非 NVMe 命令而导致的“错误”。

突然增加可能是由于您开始使用某些（监控？）软件，这些软件会向 NVMe 驱动器发送查询。为确保万无一失，找出错误日志条目内容的唯一方法是查看其中的内容。

我不知道如何使用其他工具来完成此操作。如果您使用的是 Windows 系统，您可以尝试安装 HD Sentinel，选择 NVMe 驱动器 > 单击磁盘菜单 > 设备特定信息。然后您将能够读取 NVMe e 错误日志。

編輯：参见https://www.smartmontools.org/ticket/1300有关查看实际日志条目的更多建议：

sudo nvme error-log /dev/nvme0

答案1

相关内容