SMART 的最佳 nagios 插件?

SMART 的最佳 nagios 插件?

我尝试过最好的 nagios 插件来进行 SMART 监控。有一些,但只能监控温度。但使用 smartctl 我们可以找到更多数据。您是否有一些更好的插件,其中包含来自 smart 的所有数据?

答案1

check_ide_smart 插件是标准 nagios 插件组的一部分。尽管名称中有“ide”部分,但它使用 smartctl 检查 smartctl 支持的任何驱动器。

它可以返回适合 nagios 的输出,例如:

$ ./check_ide_smart -n -d /dev/sda
OK - Operational (17/17 tests passed)

或者完整的 SMART 状态:

$ ./check_ide_smart -d /dev/sda
Id=  1, Status=11 {PreFailure , OnLine }, Value=100, Threshold= 16, Passed
Id=  2, Status= 5 {PreFailure , OffLine}, Value=100, Threshold= 50, Passed
Id=  3, Status= 7 {PreFailure , OnLine }, Value=120, Threshold= 24, Passed
Id=  4, Status=18 {Advisory    , OnLine }, Value=100, Threshold=  0, Passed
Id=  5, Status=51 {PreFailure , OnLine }, Value=100, Threshold=  5, Passed
Id=  7, Status=11 {PreFailure , OnLine }, Value=100, Threshold= 67, Passed
Id=  8, Status= 5 {PreFailure , OffLine}, Value=100, Threshold= 20, Passed
Id=  9, Status=18 {Advisory    , OnLine }, Value= 96, Threshold=  0, Passed
Id= 10, Status=19 {PreFailure , OnLine }, Value=100, Threshold= 60, Passed
Id= 12, Status=50 {Advisory    , OnLine }, Value=100, Threshold=  0, Passed
Id=192, Status=50 {Advisory    , OnLine }, Value= 99, Threshold= 50, Passed
Id=193, Status=18 {Advisory    , OnLine }, Value= 99, Threshold= 50, Passed
Id=194, Status= 2 {Advisory    , OnLine }, Value=144, Threshold=  0, Passed
Id=196, Status=50 {Advisory    , OnLine }, Value=100, Threshold=  0, Passed
Id=197, Status=34 {Advisory    , OnLine }, Value=100, Threshold=  0, Passed
Id=198, Status= 8 {Advisory    , OffLine}, Value=100, Threshold=  0, Passed
Id=199, Status=10 {Advisory    , OnLine }, Value=200, Threshold=  0, Passed
OffLineStatus=0 {NeverStarted}, AutoOffLine=No, OffLineTimeout=30 minutes
OffLineCapability=91 {Immediate Auto SuspendOnCmd}
SmartRevision=16, CheckSum=23, SmartCapability=3 {SaveOnStandBy AutoSave}

答案2

我使用了插件:check_ide_smart;但是,我最终发现它没有通知我有关磁盘智能日志中的错误。

五年后,问题漏洞显然仍然存在?

#473 check_ide_smart 忽略 SMART 错误! http://sourceforge.net/p/nagiosplug/bugs/473/

我现在在每个系统上启用更详细的 smartd 守护进程。然后,如果该进程停止,nagios 会通知我。如果没有在 cron 中运行,我可能会进行另一次检查并重新启动。

从 smartd.conf 中:

第一个(主)ATA/IDE 硬盘。监控所有属性,启用自动在线数据收集、自动属性自动保存,每天凌晨 2-3 点之间启动短暂自检,周六凌晨 3-4 点之间启动长时间自检。报告原始温度变化 >= 5 摄氏度


smartd配置文件

DEVICESCAN -H -m root -a -o on -S on -s (S/../.././02|L/../../6/03) -W 5

相关内容