我尝试过最好的 nagios 插件来进行 SMART 监控。有一些,但只能监控温度。但使用 smartctl 我们可以找到更多数据。您是否有一些更好的插件,其中包含来自 smart 的所有数据?
答案1
这check_ide_smart 插件是标准 nagios 插件组的一部分。尽管名称中有“ide”部分,但它使用 smartctl 检查 smartctl 支持的任何驱动器。
它可以返回适合 nagios 的输出,例如:
$ ./check_ide_smart -n -d /dev/sda
OK - Operational (17/17 tests passed)
或者完整的 SMART 状态:
$ ./check_ide_smart -d /dev/sda
Id= 1, Status=11 {PreFailure , OnLine }, Value=100, Threshold= 16, Passed
Id= 2, Status= 5 {PreFailure , OffLine}, Value=100, Threshold= 50, Passed
Id= 3, Status= 7 {PreFailure , OnLine }, Value=120, Threshold= 24, Passed
Id= 4, Status=18 {Advisory , OnLine }, Value=100, Threshold= 0, Passed
Id= 5, Status=51 {PreFailure , OnLine }, Value=100, Threshold= 5, Passed
Id= 7, Status=11 {PreFailure , OnLine }, Value=100, Threshold= 67, Passed
Id= 8, Status= 5 {PreFailure , OffLine}, Value=100, Threshold= 20, Passed
Id= 9, Status=18 {Advisory , OnLine }, Value= 96, Threshold= 0, Passed
Id= 10, Status=19 {PreFailure , OnLine }, Value=100, Threshold= 60, Passed
Id= 12, Status=50 {Advisory , OnLine }, Value=100, Threshold= 0, Passed
Id=192, Status=50 {Advisory , OnLine }, Value= 99, Threshold= 50, Passed
Id=193, Status=18 {Advisory , OnLine }, Value= 99, Threshold= 50, Passed
Id=194, Status= 2 {Advisory , OnLine }, Value=144, Threshold= 0, Passed
Id=196, Status=50 {Advisory , OnLine }, Value=100, Threshold= 0, Passed
Id=197, Status=34 {Advisory , OnLine }, Value=100, Threshold= 0, Passed
Id=198, Status= 8 {Advisory , OffLine}, Value=100, Threshold= 0, Passed
Id=199, Status=10 {Advisory , OnLine }, Value=200, Threshold= 0, Passed
OffLineStatus=0 {NeverStarted}, AutoOffLine=No, OffLineTimeout=30 minutes
OffLineCapability=91 {Immediate Auto SuspendOnCmd}
SmartRevision=16, CheckSum=23, SmartCapability=3 {SaveOnStandBy AutoSave}
答案2
我使用了插件:check_ide_smart;但是,我最终发现它没有通知我有关磁盘智能日志中的错误。
五年后,问题漏洞显然仍然存在?
#473 check_ide_smart 忽略 SMART 错误! http://sourceforge.net/p/nagiosplug/bugs/473/
我现在在每个系统上启用更详细的 smartd 守护进程。然后,如果该进程停止,nagios 会通知我。如果没有在 cron 中运行,我可能会进行另一次检查并重新启动。
从 smartd.conf 中:
第一个(主)ATA/IDE 硬盘。监控所有属性,启用自动在线数据收集、自动属性自动保存,每天凌晨 2-3 点之间启动短暂自检,周六凌晨 3-4 点之间启动长时间自检。报告原始温度变化 >= 5 摄氏度
smartd配置文件
DEVICESCAN -H -m root -a -o on -S on -s (S/../.././02|L/../../6/03) -W 5