我正在运行 ubuntu 12.04 LTS 服务器版本,在过去的 48 小时左右,VPS 有两次完全没有响应。Nginx 停止响应请求。有日志活动发送到我的日志服务。New Relic 数据停止发送。我甚至无法通过 ssh 进入盒子。我解决这个问题的唯一方法是进入我的托管提供商的管理系统并硬重启 VPS。重启后一切似乎都很好,直到它再次发生。
我有 1 GB 的 RAM 以及至少另外 1 GB 的交换空间。
我查看了日志,没有发现任何 OOM 终止任何进程的证据。
以下是来自 NewRelic 的一些有关服务器负载的屏幕截图。
我还应该在其他地方查找详细信息吗?可能是内核错误。
答案1
如果是 VPS,OOM 消息通常出现在硬件节点上。请咨询您的托管服务提供商,看看他们是否能找到与您的 VPS 相关的任何 OOM 问题。
答案2
通常,在出现挂起情况时,日志不会起到太大帮助作用,因为 syslog/rsyslog 进程也会挂起并停止写入日志。要处理这种情况,请配置 kdump 和 sysrq 并生成 vmcore。这将告诉您发生此问题时实际发生了什么
我不太了解 ubuntu,但我找到了这个链接 https://wiki.ubuntu.com/Kernel/CrashdumpRecipe
如何使用崩溃实用程序http://people.redhat.com/anderson/