增加 NVMe SSD 上的“错误日志条目数量”

增加 NVMe SSD 上的“错误日志条目数量”

我笔记本电脑上的 smartd(8) 提醒我 /dev/nvme0 上的“错误日志条目数”每天增加约 8 条。输出smartctl -a /dev/nvme0如下:

smartctl 7.2 2020-12-30 r5155 [x86_64-linux-6.4.0-060400rc4-generic] (local build)
Copyright (C) 2002-20, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       SAMSUNG MZVLB1T0HBLR-000L2
Serial Number:                      S4DZNX0R997671
Firmware Version:                   3L1QEXF7
PCI Vendor/Subsystem ID:            0x144d
IEEE OUI Identifier:                0x002538
Total NVM Capacity:                 1,024,209,543,168 [1.02 TB]
Unallocated NVM Capacity:           0
Controller ID:                      4
NVMe Version:                       1.3
Number of Namespaces:               1
Namespace 1 Size/Capacity:          1,024,209,543,168 [1.02 TB]
Namespace 1 Utilization:            207,072,522,240 [207 GB]
Namespace 1 Formatted LBA Size:     512
Namespace 1 IEEE EUI-64:            002538 8911b6e186
Local Time is:                      Thu Jun 15 10:12:23 2023 MSK
Firmware Updates (0x16):            3 Slots, no Reset required
Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test
Optional NVM Commands (0x005f):     Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Log Page Attributes (0x03):         S/H_per_NS Cmd_Eff_Lg
Maximum Data Transfer Size:         512 Pages
Warning  Comp. Temp. Threshold:     84 Celsius
Critical Comp. Temp. Threshold:     85 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     8.00W       -        -    0  0  0  0        0       0
 1 +     6.30W       -        -    1  1  1  1        0       0
 2 +     3.50W       -        -    2  2  2  2        0       0
 3 -   0.0760W       -        -    3  3  3  3      210    1200
 4 -   0.0050W       -        -    4  4  4  4     2000    8000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        50 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    0%
Data Units Read:                    57,117,910 [29.2 TB]
Data Units Written:                 4,531,539 [2.32 TB]
Host Read Commands:                 754,410,384
Host Write Commands:                127,604,849
Controller Busy Time:               1,014
Power Cycles:                       1,123
Power On Hours:                     450
Unsafe Shutdowns:                   139
Media and Data Integrity Errors:    0
Error Information Log Entries:      1,236
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               50 Celsius
Temperature Sensor 2:               47 Celsius
Thermal Temp. 1 Transition Count:   27
Thermal Temp. 1 Total Time:         1121

Error Information (NVMe Log 0x01, 16 of 64 entries)
Num   ErrCount  SQId   CmdId  Status  PELoc          LBA  NSID    VS
  0       1236     0  0x8009  0x4004      -            0     0     -

未发现其他警报(类似那篇帖子或类似方法)在系统日志中;特别是,没有可见的写入(或读取)错误等。但这种烦恼并不常见,因为笔记本电脑自 2022 年 4 月以来一直正常工作,而在过去 30 天内错误数量从 988 增加到 1236。

鉴于 SSD 存储了一些有价值的数据,有什么值得担心的吗?如果现在没有,那么哪个错误率应该让我感到震惊?这是联想 IdeaPad 5 Pro(查看完整硬件信息那里)。

答案1

通常您可以忽略错误日志条目,例如,它可能是由于主机向 NVMe 驱动器发送非 NVMe 命令而导致的“错误”。

突然增加可能是由于您开始使用某些(监控?)软件,这些软件会向 NVMe 驱动器发送查询。为确保万无一失,找出错误日志条目内容的唯一方法是查看其中的内容。

我不知道如何使用其他工具来完成此操作。如果您使用的是 Windows 系统,您可以尝试安装 HD Sentinel,选择 NVMe 驱动器 > 单击磁盘菜单 > 设备特定信息。然后您将能够读取 NVMe e 错误日志。

在此处输入图片描述

編輯:参见https://www.smartmontools.org/ticket/1300有关查看实际日志条目的更多建议:

sudo nvme error-log /dev/nvme0

相关内容