这是我在这个论坛上的第一篇帖子,我是通过 StackOverFlow 的精彩播客“It Conversations”找到的。我担任伦敦展览中心的服务器管理员,工作很出色。基本上,我们有一个中央文件和 SQL 服务器,大约 40 个站点连接到该服务器,以上传/下载一组应用程序使用/捕获的数据。
在过去几周里,我们的应用程序出现了几次随机挂断的情况,由于这种情况总是同时发生在多个应用程序上,因此我不认为应用程序是问题的根源。我们还使用 Dartware Intermapper 监控网络,它表明在停机期间网络上的所有交换机和站点都可以访问。因此,所有问题都指向服务器。
我已经查看了所有我能想到的日志文件,到目前为止,我发现唯一可疑的是系统日志中的以下几行,它们来自其中一次挂断时:
Feb 6 17:14:27 es named[5582]: client 127.0.0.1#33721: RFC 1918 response from Internet for 150.0.168.192.in-addr.arpa
Feb 6 17:14:40 es named[5582]: client 127.0.0.1#32899: RFC 1918 response from Internet for 152.0.168.192.in-addr.arpa
Feb 6 17:15:01 es /USR/SBIN/CRON[1956]: (es) CMD (/home/es/apps/es/bin/es_checksum.sh)
Feb 6 17:16:06 es /USR/SBIN/CRON[2031]: (es) CMD (/home/es/apps/es/bin/es_checksum.sh)
Feb 6 17:21:00 es named[5582]: *** POKED TIMER ***
Feb 6 17:21:00 es last message repeated 2 times
Feb 6 17:21:07 es named[5582]: client 127.0.0.1#44194: RFC 1918 response from Internet for 143.0.168.192.in-addr.arpa
Feb 6 17:21:12 es named[5582]: client 127.0.0.1#59004: RFC 1918 response from Internet for 164.0.168.192.in-addr.arpa
我在这里发现几行有趣的话:
1) “互联网对 150.1.168.192.in-addr.arpa 的 RFC 1918 响应”。我看到了很多在系统日志中。基本上每次我对集群中的任何计算机执行 nslookup 时,我都会在系统日志中看到一条类似的新行。我从谷歌了解到,这与反向查找问题有关。但我不知道这会如何影响系统。假设每次其中一个用户站连接到服务器时都会出现其中一条行,这种情况可能每秒发生几次。这可能导致整个服务器挂断吗?
2) POKED TIMER,我在 Google 上搜索过很多次,但没有找到与我相关的解释。这是什么意思?
3) 时间戳,似乎整个服务器已经停止响应几分钟。通常,此服务器每分钟会向系统日志打印许多份输出。此外,CRON 作业设置为每分钟运行一次。根据日志,这里没有发生这种情况。
操作系统:Ubuntu 8.04 内核:Linux 2.6.24-24-server x86_64 GNU/Linux。硬件:Dell R710,RAID1,CPU:2x XEON E5530。16GB 内存。平均负载很低,内存应该不是问题。
如果您需要任何其他信息,请告诉我。
最好的祝愿
答案1
这是一个非常奇怪和糟糕的情况。我从来没有见过一台主机停止工作 5 分钟,然后又毫无问题地工作,并在日志中记录。你真的确定日志中没有任何内容吗?什么最后的能说明什么?我不确定,但我认为您在 syslog 中报告的异常与您的问题无关。您有关于 syslog 中没有记录的时间的数据吗?sysstat 没有说明这五分钟的情况?如果它没有说明,因为它没有安装,您可以安装它。而且其他日志在 17:16 和 17:21 之间有间隙吗?
答案2
这些问题与 Ubuntu 8.04 LTS(Hardy)和 Dell PERC 6/i RAID 控制器之间的不兼容问题有关,如下面这个错误所报告的:https://bugs.launchpad.net/ubuntu/+source/linux/+bug/607167 升级到 Ubuntu 10.04 LTS Lucid(内核 2.6.32)可解决该问题。
以防其他人遇到同样的问题。