我有一个测试套件在分离的 Screen 中运行,它似乎要被终止了,但我不知道为什么(或如何)。我检查了我的软件日志,没有发现任何问题。测试日志在 3 月 30 日 14:09:50 停止,但系统日志直到 14:12:34 才报告关机,因此约 2 分钟的间隔很可疑(测试安静的时间最多不超过几秒钟的可能性很小),并表明触发关机的原因可能在接近 14:09:50 时开始。
以下是系统日志的片段:
Mar 30 14:10:30 foo-system NetworkManager[774]: <info> [1553980230.8267] server identifier 10.201.X.X
Mar 30 14:10:30 foo-system NetworkManager[774]: <info> [1553980230.8267] lease time 1800
Mar 30 14:10:30 foo-system NetworkManager[774]: <info> [1553980230.8267] nameserver '10.201.X.X'
Mar 30 14:10:30 foo-syMar 30 14:12:34 foo-system systemd[1]: Stopping User Manager for UID 1000...
Mar 30 14:12:34 foo-system systemd[14623]: Reached target Shutdown.
Mar 30 14:12:34 foo-system systemd[14623]: Starting Exit the Session...
Mar 30 14:12:34 foo-system systemd[14623]: Stopped target Default.
Mar 30 14:12:34 foo-system systemd[14623]: Stopped target Basic System.
Mar 30 14:12:34 foo-system systemd[14623]: Stopped target Timers.
Mar 30 14:12:34 foo-system systemd[14623]: Stopped target Sockets.
Mar 30 14:12:34 foo-system systemd[14623]: Stopped target Paths.
Mar 30 14:12:34 foo-system systemd[14623]: Received SIGRTMIN+24 from PID 21470 (kill).
Mar 30 14:12:34 foo-system systemd[1]: Stopped User Manager for UID 1000.
Mar 30 14:12:34 foo-system systemd[1]: Removed slice User Slice of userbar.
我发现有趣的是,日志本身似乎在 14:10 被中断,甚至没有写完一行,就在例行 NetworkManager 报告的中间(大约每 12 分钟发生一次,应该还有几行要写),有大量的 Stop 消息。我已经挖掘了足够多的信息,可以确定这不是系统关闭/重启事件(启动日志证实系统自 2018 年 2 月以来一直处于启动状态,一年多以前)。我不知道是什么触发了这次关闭,但我需要它停止。
UID 1000 是进行测试的用户,代号为“userbar”。
测试在分离的 Screen 实例下运行以允许其继续执行,这是对后台的设计选择,以允许报告连接到进程并检查其运行状况。
背景: 这是在 Ubuntu VM 上全天候运行测试的情况。它已经运行了一年多,没有出现过问题,这些问题不仅限于测试套件本身(或与之相关的用户错误)。也就是说,操作系统或其系统从未出现过问题。直到上个月,大约是一周年纪念日(巧合吗?),测试才在没有任何警告的情况下关闭。值得注意的是,在此期间(当然在过去的 1-2 个月内),系统没有重新启动、应用任何更新或安装任何软件。
第一次测试失败时,我重启了测试,没有调查原因。我只是假设测试本身失败了,这只是一个偶然事件,与我们当时遇到的一些网络问题有关。大约两个月以来,测试本身没有发生重大变化。它运行了大约一周后再次失败(几天前)。这次,我深入研究了测试套件的日志。但没有报告任何严重错误,它只是突然停止了。
系统日志似乎包含最有说服力的信息,但我不清楚。有什么想法可能是什么问题,或者我需要在哪里查找更多信息?