我刚刚发现了这篇很棒的文章:http://www.cyberciti.biz/tips/linux-server-predicting-hardware-failure.html
并且一直在想检查硬件故障的频率通常是多少?如果出现问题,我希望尽早检查,但也不想只为了让机器自我检查而耗尽机器的所有计算能力。我在 shell 脚本 CheckHardware.zsh 中有一个建议行的修改版本,我想将其添加为 cronjob:
#!/bin/zsh
[ $(grep -c "hardware error" /var/log/mcelog) -gt 0 ] && echo "Hardware Error Found On $(hostname) @ $(date)" | ssmtp [email protected]
我还不清楚命令行实用程序 (mcelog) 是否也必须作为 cronjob 频繁运行?也就是说,我是否必须有两个 cronjob?运行 mcelog,然后检查 mcelog 文件中是否有任何包含“硬件错误”的内容?
提前感谢您提供的任何帮助。
答案1
我认为比每隔一段时间检查更好的方法是,当出现故障时收到警报。
例如,一个流行的工具是http://nagios.org/如果你用谷歌搜索,还会发现更多。
这些工具可以在出现问题时向您发送电子邮件警报。因此,例如,您可以使用您发布的脚本,并进行一些小修改,将其集成到 nagios,这样,如果脚本检测到问题,nagios 就会向您发出警报。