Rhel 5.3 服务器挂起,每两周需要重启一次

Rhel 5.3 服务器挂起,每两周需要重启一次

我的服务器场中有 4 台 RHEL 5.3 服务器(运行在 HP 刀片上),它们似乎每两周就会挂起一次,需要重新启动才能解决问题。发生这种情况时,服务器对 ssh 尝试连接没有响应,并且无法访问。只能通过 ILO 访问。在服务器无响应之前...有时 ssh 会话会挂起很长时间,然后服务器才会进入无响应模式。

通过 ILO 冷重启后,它恢复到正常运行模式。我仔细查看了日志文件,没有发现任何问题。此服务器场上的其他 RHEL 5.3 服务器似乎没有这个问题,也没有启用 IP 表

我发现的唯一问题是这些受影响的服务器启用了 IPtables,而且似乎有很高的数据包拒绝率……这似乎是我在他们的日志(即系统日志 /var/log/messages)中看到的全部内容。日志文件中有大量数据包拒绝,因为 IP 表已打开

这可能是 IPtables 造成的吗?日志中没有显示任何磁盘、硬件问题或任何其他问题。目前无法修补。如果是 IP 表造成的,谁能解释一下,请帮忙,任何人提供任何帮助都将不胜感激

答案1

这些是 HP 服务器,那么你有HP 管理代理正在运行? ASR 看门狗定时器的值设置为多少?我假设超时默认为 10 分钟。您在 ILO 日志或系统的 IML 日志中看到任何内容了吗?在您重新启动系统之前,系统停滞了多长时间?

我会查看 ILO 和服务器的 IML 日志以获取信息。您可能遇到了硬件问题,也可能是应用程序/操作系统级别触发的问题。

答案2

大量数据包被拒绝可能是由多种原因造成的 —— 通常意味着 iptables 正在执行其工作。毕竟,不拦截任何数据包的防火墙有什么用呢?对吧?

您要求对一个非常普遍的问题给出一个非常具体的答案。

您所问的问题可能是系统上某些服务的可靠性问题,也可能是性能问题。除非您开始检查日志和性能计数器,否则无法检查。(您确实以某种方式记录了性能指标,不是吗?)

您能回答有关每次停电的以下问题吗?

  1. 服务器瘫痪的确切时间是什么时候(5 分钟以内)?
  2. 系统日志是否显示了当时的任何相关错误?
  3. 在此之前的一个小时内,每十分钟间隔的平均负载是多少?
  4. 在此之前的一个小时内,每十分钟间隔的内存使用情况是多少?
  5. 在此之前的一个小时里,每十分钟的换入/换出率是多少?

如果你不知道这些问题的答案,你需要看看你的数据收集方法,直到你能找到答案。如果你不确定从哪里开始跟踪 Linux 上的性能指标,特区是一个很好的起点。您还可以查看绩效副驾驶穆宁或任意数量的其他工具。

之后,如果您仍然认为 iptables 是罪魁祸首,您可以通过在 iptables 配置中添加如下内容来打开日志记录:

-j LOG --log-prefix="" --log-level=info

希望这可以帮助。

答案3

有可能是 iptables规则可能会导致/引起问题,特别是如果它们是有状态的 - 但它不仅仅是加载 iptables 模块。

但是你没有说 iptables 规则是什么。

答案4

正如 symcbean 所说,iptables 规则是什么更重要。除非有特殊需要,否则请确保您没有记录丢弃的数据包。还要检查您的 selinux 日志 (/var/log/audit/audit.log)。我发现 RHEL 中一半的问题都源于 selinux。确保您的日志分区没有填满。

相关内容