我有大约 20 台服务器,上面有不同的 webapp。每 4 小时运行rsnapshot
一次任务,并将它们全部备份到备份服务器。
今天偶然发现,由于文件系统的输入/输出故障,过去 4 天的备份失败。fsck
问题已修复,但是 4 天的备份丢失了。
有什么方法可以检查备份是否正常?
目前我使用munin
监控系统,如果它确实重要的话,尽管它只检查服务器健康状况(内存、CPU、HDD 等),没有任何软件检查。我可以集成一个脚本来检查FATAL ERROR
rsnapshot 日志中的条目,但我不确定这是否足够?
也许有一个系统可以从备份中引导环境以检查其完整性。不幸的是,我没有找到足够的相关信息。
答案1
确保您还监控文件系统的可用空间、监控系统日志中的关键/严重消息、磁盘、网络和备份服务(ssh/rsync)的 SMART 输出。
关于验证您的备份,您可能需要同时设置您的 webapps 环境并定期恢复您的备份。您的备份和您的恢复一样好。