我的服务器已经运行了 6 个月,今天重启了。目前还不知道原因。检查了以下内容...
- 上次重启显示“重启系统启动 4.14.0-generic”
- /var/log/syslog - 没有重启/崩溃的记录 上午 11:21 - 最后的应用程序日志(通用日志) 上午 11:23 - 系统启动日志 上午 11:24 - 恢复应用程序日志
- /var/messages — 未找到与当时重启相关的条目。
- /proc/sys/kernel/panic 为 0。
- /etc/apt/apt.conf.d/50unattended-upgrades //无人值守升级::自动重启“false”;
- 检查管理控制台(服务器),没有报告活动和硬件警报。
服务器在一分钟内启动,没有任何问题,但我很好奇原因。
请指导我彻底解决这个问题......
答案1
正如 Gerald 所说,Ubuntu 16.04 已经过时了,应该升级(或者获取一个装有 20.04 的新服务器并关闭旧服务器)。
经过 6 个月的持续运行,出现强制重启的小故障并非不可能。出现这种情况的原因有多种,您之前看到的内容可能为您提供了一些线索,但是当您什么都没看到时,有两个主要原因可能导致这种情况发生:
- 停电了
- 软件无法检测到硬件故障,并且服务器有一个看门狗,允许它至少关闭(也许它发送了一条 APCI 消息,尽管该消息可能已经被注册,但如果硬件运行不正常,软件将无法报告该问题)
如果它没有自动重启,那么它就只是卡住了,这也表明存在硬件问题,而软件根本没有机会对此采取任何措施。
该/proc/sys/kernel/panic
文件是一个标志,用于告诉内核如何处理内核检测到的错误(即软件中的错误)。您可以找到详细信息这里。由于您说它是零,所以它不会在软件出现问题时自动重启。
就我而言,我曾经遇到过蓝牙接收器的问题。它会收到太多的点击,以至于几分钟后就会在内核中产生锁定。但是,日志中没有清楚地报告。但是,那台计算机有调试模式,我可以监听 USB 端口上的消息。这给了我所需的信息(大量有关蓝牙的消息)。关闭它使系统再次稳定。由于您只有一个事件,所以我不会担心它。如果它一遍又一遍地重复,那么可能是时候考虑使用不同的硬件了。