我们有一台运行 Ubuntu Linux 18.04.6 的服务器。Smartd 配置为当其中一个硬盘出现故障时发送警报电子邮件。它已经这样做了好几次,有问题的硬盘也已被更换(几周前)。但系统不断发送有关该硬盘的消息,而该硬盘在系统中甚至不再存在。今天 2022-10-07 我收到:
此消息由运行于以下操作系统的 smartd 守护程序生成:
主机名:服务器
DNS 域名:domain.com
Smartd 守护进程记录了以下警告/错误:
设备:/dev/sdi [SAT],SMART 使用失败属性:7 Seek_Error_Rate。
设备信息:
WDC WD6003FRYZ-01F0DB0,序列号:V9JLADNL,WWN:5-000cca-0bde484c2,固件:01.01H01,6.00 TB
有关详细信息,请参阅主机的 SYSLOG。
您还可以使用 smartctl 实用程序进行进一步调查。
有关此问题的原始消息于 2022 年 8 月 12 日星期五 20:40:12 CEST 发送
如果问题仍然存在,将在 24 小时内发送另一条消息。
那时它是一个 6 TB 的 WD 硬盘,现在是 8 TB 的 Seagate 硬盘,所以我很确定这个错误不会持续存在。
在此期间,服务器至少重启过两次。
我应该去哪里寻找原因呢?
编辑:
我刚刚发现目录 /var/lib/smartmontools 包含几个 *.csv 和 *.state 文件,这些文件似乎包含文件的属性值,例如
attrlog.ST1000DM003_1ER162-Z4Y3R2ER.ata.csv
和
smartd.ST18000NM000J_2TV103-ZR5C0BVS.ata.state
显然这些文件用于存储当前状态(.state)以及某种历史记录(.csv)
不幸的是,对于 WD 驱动器,没有这样的文件。
答案1
我建议阅读smartd
手册页。
似乎有一个配置文件正在smartd
读取旧驱动器的信息。配置文件是/etc/smartd.conf
。
看来重置配置文件可以解决这个问题。如果不存在,则会创建一个新的。
建议执行以下操作来备份配置文件并重新启动smartd
:
sudo mv /etc/smartd.conf /etc/smartd.conf.bak
sudo systemctl restart smartd.service
此后,如果需要,将旧配置中的相关部分插入/etc/smartd.conf.bak
到新配置中。/etc/smartd.conf