我应该采取什么步骤来确定 Linux 服务器故障的根本原因？

Question 1

这是一个通用的配方，它不仅适用于 Linux：

识别问题，顺序如下：

远程登录问题：
1. 网络问题
2. 远程登录守护进程问题（有时使用 ssh 登录可能需要几分钟）
负载问题 ( uptime;df -h;free -m)
阅读日志（它们位于/var/log/。系统范围的日志位于/var/log/messages。/var/log/syslog对于您的情况，您可能会对感兴趣/var/log/apache）

如果您硬重启了服务器，请仔细记下重启时间。这样您就可以检查该时间之前的日志。

Answer

这是一个通用的配方，它不仅适用于 Linux：

识别问题，顺序如下：

远程登录问题：
1. 网络问题
2. 远程登录守护进程问题（有时使用 ssh 登录可能需要几分钟）
负载问题 ( uptime;df -h;free -m)
阅读日志（它们位于/var/log/。系统范围的日志位于/var/log/messages。/var/log/syslog对于您的情况，您可能会对感兴趣/var/log/apache）

如果您硬重启了服务器，请仔细记下重启时间。这样您就可以检查该时间之前的日志。

Question 2

首先收集统计数据，看看挂起和系统活动之间是否有任何关联。例如，您可以使用：

如果没有这些数据，您几乎就是盲目的，当您想要做一些容量规划或者只是想看看您的系统行为中是否存在任何明显的模式/异常时，它们也很方便。

从监控开始[使用 munin 你将获得大多数‘开箱即用’的功能]：

我最好的猜测是，您的机器正在交换数据失败/因磁盘访问速度慢而卡住，但我也可能错了。

诸如系统完全挂起之类的事情可能不会在您的日志中留下太多痕迹，但在其他情况下 - 检查系统日志或特定应用程序日志的内容总是值得的 - 也许您在某个地方用完了空间？也许是出现了段错误？

Answer

首先收集统计数据，看看挂起和系统活动之间是否有任何关联。例如，您可以使用：

如果没有这些数据，您几乎就是盲目的，当您想要做一些容量规划或者只是想看看您的系统行为中是否存在任何明显的模式/异常时，它们也很方便。

从监控开始[使用 munin 你将获得大多数‘开箱即用’的功能]：

我最好的猜测是，您的机器正在交换数据失败/因磁盘访问速度慢而卡住，但我也可能错了。

诸如系统完全挂起之类的事情可能不会在您的日志中留下太多痕迹，但在其他情况下 - 检查系统日志或特定应用程序日志的内容总是值得的 - 也许您在某个地方用完了空间？也许是出现了段错误？

相关内容