服务器每两周同一时间崩溃一次

服务器每两周同一时间崩溃一次

几个月前,我们的服务器每 14 天就会崩溃一次,而且每次都是在同一时间(每次都是 11:04 左右)。我们非常确定这不是某种硬件故障,因为硬件故障往往是随机的。

服务器突然停止响应,并在几秒钟后自行重启。没有任何日志包含任何相关信息,我们 100% 确定服务器上没有可能导致此问题的 cron。

有人遇到过这种问题吗?我们对这种奇怪的行为感到非常沮丧,因为根本不知道哪里出了问题……

我也拍摄了视频就在服务器崩溃之前,正如您所看到的,一切似乎都没有问题……

2011年4月11日更新:

2个星期前:为了缩小可能性,服务器在下次发生前 5 分钟关闭(shutdown -h now)。神奇的是,服务器在预期时间自行启动。之后,我们的 DC 将服务器移至另一个 PDU 端口,我们认为这最终将解决我们的问题。

今天:服务器仍然崩溃了,而且是在同一时间!!我们的 DC 说同一 PDU 上的其他服务器没有这个问题。现在我们真的很困惑,如果不是 PDU 也不是我们的服务器,那会是什么?

答案1

从视频来看,这似乎是一次冷重启。正如您所说,日志中没有任何内容。如果使用相同 UPS 的其他服务器没有遇到同样的问题,我能想到的就是 sysrq“魔法”键或故障的 kvm 卡。

存在缺陷/故障的系统监控流程可能会在特定日期/时间执行此操作。追踪此过程应该很有趣。

第一步是更改操作系统的日期和时间,看看它是否自行重新启动,这样您就可以缩小范围。

答案2

我遇到过同样的情况,两根服务器电源线都连接到同一个 ups。查看 ups 日志后发现,当 ups 进行自检时(每 14 天一次)确实发生了重置。

解决方法:将一根电源线插入另一台UPS或直接连接。

答案3

你说的“完全相同的时间”到底是什么意思?

假设您已经消除了所有计划作业(通过更改所有作业的运行时间 - 而不仅仅是查看日志),那么我的首要任务就是查看 UPS 日志。您你有 UPS 不是吗?

答案4

我有一台 IBM 服务器,每 76 天就会崩溃一次。我为找出原因而感到沮丧,简直要发疯了。结果发现是系统卡之一的时钟问题(http://communities.vmware.com/thread/9359)。为了以防万一,请务必检查是否有人遇到过与品牌和型号服务器相关的类似问题。

相关内容