如何监控生产系统健康状况、生成崩溃报告等

如何监控生产系统健康状况、生成崩溃报告等

我有一台运行在相当不错的硬件上的家庭服务器(CPU 是 Threadripper 2970WX,具有 24/48 核)。它上面运行着很多不同的东西,一些带有不同软件的虚拟机,部分是办公软件,还有服务器、机器人和许多其他工具。有时,计算机会突然崩溃,这并不好,因为这是一个生产系统,多人依赖它。它很少崩溃,大多数时候我在家,可以立即重新启动它。不过,我想知道是否有一个工具可以监视我的系统运行状况并尝试提前警告系统故障,或生成崩溃报告,以便我知道到底是什么导致了问题以及如何修复它。有没有一个工具可以处理这个问题,最好是 GUI?我认为手动爬行各种日志文件对于生产系统来说不是一个好的选择。

我运行 Debian 10 Buster 作为我的主机系统以及所有重要的虚拟机。

答案1

有一个名为 kdump 的实用程序。您可以在系统上对其进行配置,每当系统崩溃时,您的准时系统状态就会被捕获到故障转储文件夹中。这是我用过的并且可以建议的。如果您知道导致系统崩溃的原因,您可以编写一个脚本来修复问题并将其安排为 cron 作业。

相关内容