Linux Centos 6 时常不可用 - 操作系统和网络问题

Linux Centos 6 时常不可用 - 操作系统和网络问题

我遇到了以下问题。有一台服务器 (DL160 G5) 运行 Centos 6.3,默认内核为 2.6.32-220.2.1.el6.x86_64 - 此时我想补充一下,这个问题也出现在旧版本 - 6.1 和旧内核(不记得具体是哪个版本)。安装了 cPanel,有时它不可用(网络连接)。我检查的内容是(通过 KVMoIP):

  • 平均负载完全正常
  • 问题发生时并不缺少内存或磁盘空间
  • 没有控制台通知
  • 检查了所有访问日志,没有迹象表明这可能是由客户端脚本引起的
  • 甚至无法访问本地接口(127.0.0.1)或主 IP 地址
  • 运行 tcpdump 我只能看到数据包到达服务器 - 没有响应
  • 所有服务似乎都运行正常(邮件、sql、http、ssh)
  • 检查了 crontab 以及所有客户端的 crontab
  • 网络端口利用率低(最多几兆位)
  • 到达数据包的速率很低 - 每秒数百个(根据 tcpdump)
  • 控制台(通过 kvmoip)运行良好,无延迟
  • 此服务器上没有 conntrack
  • 此服务器没有 ipv6
  • 刷新 iptables、卸载模块无法解决问题
  • 重新启动网络不能解决问题,没有出现任何错误
  • 当配置了两个独立的网络(和多个网关)以及一个 IP、一个默认网关和一个网络时也会发生这种情况 - 因此它似乎与网络配置无关
  • 它似乎随机重复(负载、数据包速率、带宽使用情况、负载独立)
  • 使用不同的 rootkit 检测工具检查服务器 - 看起来没有问题
  • 服务器已重新启动,但没有任何改变
  • 没有接口错误
  • 它会随机出现,可能是一周一次,也可能是一天几次

通常在 1-15 分钟后就可以正常工作。我还可以检查什么?这肯定是操作系统的问题 - 出现问题时,接口上只有一个方向的流量,甚至无法 ping 回环。有什么想法吗?推荐检查吗?上面我没有检查的任何内容。

答案1

这是一个长远的打算,但我最近遇到了一个问题,在随机时间间隔内,某些系统会经历非常高的“系统” CPU 时间,这非常糟糕,以至于集群工具会认为系统已死并发出暂停等指令。

在出现问题时,请尝试top扩展1CPU,并查看是否有一个或多个处理器显示出奇怪的行为。

如果此问题确实存在,则可能看起来是这样的。请注意较高的“sy”值。

Cpu0  : 16.7%us, 25.0%sy,  0.0%ni, 50.0%id,  0.0%wa,  0.0%hi,  8.3%si,  0.0%st
Cpu1  : 28.6%us, 42.9%sy,  0.0%ni, 28.6%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Cpu2  :  6.0%us, 11.3%sy,  0.0%ni, 80.5%id,  0.0%wa,  0.0%hi,  2.3%si,  0.0%st
Cpu3  : 20.0%us, 60.0%sy,  0.0%ni, 20.0%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st

您还可以运行dstat -talm(可能将其放在后台并重定向到文件)以获取每秒的统计数据,这可能有助于诊断问题,以防您无法在启动时查看它。

请注意,对于我的问题,我最终与 Red Hat 支持部门合作了数周,最终只是尝试安装较新的内核补丁版本,这就是解决方案。

答案2

CentOS 或任何 Linux 变体都不会为了好玩而这样做。这里面有一个潜在的硬件问题。

我猜测您的服务器是 VMware 或其他虚拟化客户机,并且在拍摄客户机快照时会出现问题。

您的要点列表很长,但没有提到日志。dmesg输出中或下方有什么有趣的内容/var/log吗?

相关内容