Ubuntu Server 20.04(和 19.04)对 SSD 的写入极高,重新安装为只读

Ubuntu Server 20.04(和 19.04)对 SSD 的写入极高,重新安装为只读

我正在运行一个小型家庭服务器,它运行 Ubuntu 20.04(之前的 19.04)。该服务器仅运行 docker,并且通常将其数据写入我安装的 ZFS 池(与本故事无关,仅用于上下文)。

作为启动磁盘,我使用带有 EXT4 文件系统的 Kingston A2000 512GB NVME 驱动器。今天下午和本周有几次,服务器停止响应,我无法远程登录。连接屏幕后,我发现 SSD 由于错误而被安装为只读。我没能找出错误是什么。重新启动后,我决定检查 SSD 是否有坏扇区或其他问题,但我没有发现任何问题。然而,它确实对我来说很突出,SSD(半年)写入了 56TB,但读取了 6TB。

这真的让我很困扰,因为这实在是太多了。我已经设置了 noatime 属性并且正在运行修剪。

SSD 上存储的唯一内容是:+/- 30 个 Docker 容器、Ubuntu 20.04 和来自几个容器的一些数据(Plex 元数据、没有为 Minecraft 服务器运行每日备份/文件的视频/Duplicati 数据库,其中 Docker 中包含 5 个不常用用户)。

我试图找出高写入的底部,但我不知道如何以智能或结构化的方式处理这个问题。我找到了一些命令来检查自启动以来写入的所有文件,但这些文件太多了,无法在一周内手动检查。

我还不确定为什么驱动器一直进入只读模式,但这可能是一个单独的问题。

任何帮助深表感谢!

smartctl 7.1 2019-12-30 r5022 [x86_64-linux-5.4.0-40-generic] (local build)
Copyright (C) 2002-19, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       KINGSTON SA2000M8500G
Serial Number:                      XXXX
Firmware Version:                   S5Z42105
PCI Vendor/Subsystem ID:            0x2646
IEEE OUI Identifier:                0x0026b7
Controller ID:                      1
Number of Namespaces:               1
Namespace 1 Size/Capacity:          500,107,862,016 [500 GB]
Namespace 1 Utilization:            29,767,180,288 [29.7 GB]
Namespace 1 Formatted LBA Size:     512
Namespace 1 IEEE EUI-64:            0026b7 282536db15
Local Time is:                      Wed Jul 15 19:53:03 2020 CEST
Firmware Updates (0x14):            2 Slots, no Reset required
Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test
Optional NVM Commands (0x005f):     Comp Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Maximum Data Transfer Size:         32 Pages
Warning  Comp. Temp. Threshold:     75 Celsius
Critical Comp. Temp. Threshold:     80 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     9.00W       -        -    0  0  0  0        0       0
 1 +     4.60W       -        -    1  1  1  1        0       0
 2 +     3.80W       -        -    2  2  2  2        0       0
 3 -   0.0450W       -        -    3  3  3  3     2000    2000
 4 -   0.0040W       -        -    4  4  4  4    15000   15000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        46 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    10%
Data Units Read:                    12,031,713 [6.16 TB]
Data Units Written:                 110,463,016 [56.5 TB]
Host Read Commands:                 248,933,785
Host Write Commands:                1,467,111,619
Controller Busy Time:               9,524
Power Cycles:                       101
Power On Hours:                     4,515
Unsafe Shutdowns:                   5
Media and Data Integrity Errors:    0
Error Information Log Entries:      0
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0

Error Information (NVMe Log 0x01, max 256 entries)
No Errors Logged

答案1

我已经根据同事的一些反馈成功找到了罪魁祸首。事实证明,该问题是由 Duplicati 写入临时文件并删除它们引起的。为了解决这个问题,我将这些文件的位置更改为硬盘而不是 SSD。

相关内容