我在另一个办公室远程运行着一台 Ubuntu 服务器。它死机了好几次,我都不知道原因。它是一台通过 API 请求外部服务的服务器。我的dead
意思是它仍在运行,只是停止工作了。服务器的网络似乎也处于离线状态,局域网扫描找不到它。
它位于办公室路由器后面,运行 18.04 内核 4.15.0-147-generic。现场没有人拥有此服务器的帐户。
这是我尝试过的。
last reboot
结果:
reboot system boot 4.15.0-151-gener Thu Jul 22 14:49 still running
reboot system boot 4.15.0-147-gener Wed Jul 21 15:48 still running
reboot system boot 4.15.0-147-gener Wed Jul 21 14:05 - 15:48 (01:43)
reboot system boot 4.15.0-147-gener Sat Jul 17 18:24 - 15:48 (3+21:24)
reboot system boot 4.15.0-147-gener Thu Jul 15 17:26 - 15:48 (5+22:22)
Jul 22 14:49
是我请现场工作人员重启的。7 月 21 日停电了。
- /var/log/syslog
Jul 22 09:08:50 localhost service_start.sh[946]: INFO:launcher:myjob finish a output for 2.
Jul 22 09:08:50 localhost service_start.sh[946]: INFO:launcJul 22 14:50:05 localhost systemd[1]: Starting Flush Journal to Persistent Storage...
Jul 22 14:50:05 localhost systemd[1]: Started LVM2 metadata daemon.
Jul 22 14:50:05 localhost systemd[1]: Started Load/Save Random Seed.
Jul 22 14:50:05 localhost lvm[443]: 2 logical volume(s) in volume group "localhost-vg" monitored
Jul 22 14:50:05 localhost systemd[1]: Started Set the console keyboard layout.
Jul 22 14:50:05 localhost systemd-modules-load[436]: Inserted module 'iscsi_tcp'
系统在之后就离线了Jul 22 09:08:50
。Jul 22 14:50:05
就是之前提到的重启。
看起来系统没有重启或关闭,否则应该有一些日志表明这一点。而且 syslog 中也没有系统错误日志。
有两个用户 cron 作业设置为每 5 分钟和 10 分钟运行一次,并且在Jul 22 09:05:01
系统死机之前, syslog 中有 cron 运行条目Jul 22 09:08:50
。
现场没有技术人员,目前我只能从另一台现场计算机通过 teamview 访问服务器。
我已经运行了 htop,系统负载很轻。
我现在很茫然。在下一次 TeamView 会话期间我还应该检查什么?
答案1
在描述问题时,您提到了很多变量,主要是服务器所在位置的网络基础设施。如果这是我的服务器,第一步是通过 ssh 进入服务器并执行以下操作:
tail -f /var/log/syslog
通过这个或者监控其他日志文件可以查明导致服务器无响应的原因。
由于您说服务器即使已死机但仍在运行(不清楚这意味着什么),这意味着网络连接丢失,所以我将重点监控它。
您可能会发现解决此问题的最快方法是通过本地 LAN 在现场排除故障。