让 systemd 服务稍后停止而不阻塞“systemctl stop”

让 systemd 服务稍后停止而不阻塞“systemctl stop”

我有一堆服务负责运行从队列中消耗的操作。

我希望能够轻轻地重启服务(不中断已经运行的操作)

可以通过处理 systemd 发送的 SIGTERM 并保存程序在当前操作处理完毕后应退出的信息来解决。
还有一个小问题,即TimeoutStopSec在服务配置文件中定义的一段时间后,systemd 将发送额外的 SIGKILL 来粗暴地终止我的进程。
我可以通过设置轻松避免它TimeoutStopSec=infinity。然后systemctl stop我会等到脚本自行终止,这可能会持续一个多小时,并导致我遇到主要问题。

我不希望systemctl命令等到脚本结束

看起来SendSIGKILL=no配置可以完成这项工作。结果是SIGTERM在之后重试TimeoutStopSec,然后创建新的工作程序,并使旧工作程序保持运行。

journalctl 日志

May 06 14:14:43 jaku systemd[1]: Stopping Jaku test worker...
May 06 14:14:43 jaku python3[31597]: * 15 <frame object at 0x14d8108>
May 06 14:14:53 jaku systemd[1]: jaku-test-worker.service: State 'stop-sigterm' timed out. Skipping SIGKILL.
May 06 14:14:53 jaku python3[31597]: * 15 <frame object at 0x14d8108>
May 06 14:15:03 jaku systemd[1]: jaku-test-worker.service: State 'stop-final-sigterm' timed out. Skipping SIGKILL. Entering failed mode.
May 06 14:15:03 jaku systemd[1]: jaku-test-worker.service: Failed with result 'timeout'.
May 06 14:15:03 jaku systemd[1]: Stopped Jaku test worker.
May 06 14:15:03 jaku systemd[1]: jaku-test-worker.service: Found left-over process 31597 (python3) in control group while starting unit. Ignoring.
May 06 14:15:03 jaku systemd[1]: This usually indicates unclean termination of a previous run, or service implementation deficiencies.
May 06 14:15:03 jaku systemd[1]: Started Jaku test worker.
jaku@jaku:/nfs/home/jaku/tmp$ ps aux | grep "sig.py"
jaku     31597 99.9  0.0  31884  9916 ?        Rs   14:00  15:10 /usr/bin/python3 /home/jaku/tmp/sig.py
jaku     32359  100  0.0  31884 10032 ?        Rs   14:15   0:43 /usr/bin/python3 /home/jaku/tmp/sig.py
jaku     32483  0.0  0.0  15968  1040 pts/7    S+   14:15   0:00 grep --color=auto sig.py

解决方案看起来正在发挥作用,但我担心这句话:

这通常表示前一次运行不干净终止,或者服务实施存在缺陷。

我是否遗漏了什么或者这确实是最好的解决方案?

参考:

答案1

听起来你想提出systemctl这样的--no-block论点:

systemctl --no-block stop service-name

--no-block

不要同步等待请求的操作完成。如果未指定,作业将被验证、入队,并且 systemctl 将等待,直到单元的启动完成。通过传递此参数,它只会被验证和入队。此选项不能与 结合使用--wait

答案2

看起来没有办法解决这个问题,这里是一些 有关的线程。
但是...我的假设是我不希望systemctl命令等到脚本结束错了。

我希望这个命令简短一些,因为它必须是 Jenkins 部署的一部分,并且我不希望部署过程花费超过几分钟的时间。
我不知道的是,中断systemctl命令不会停止关闭服务的过程,因此可能的解决方案是:

运行systemctl带有时间限制的命令,例如timeout 60 systemctl restart services-preifx-* || echo "processes will be restart in background"

现在TimeoutStopSec可以将其设置为一些较高的值(例如 10h)以防止服务永远重启。

另外KillMode=process必须设置,以免中断任何子进程。

答案3

systemd 停止服务的想法是终止与该单元的 cgroup 相关的所有进程。运行 any 后ExecStop=,然后发送KillSignal=,最后在必要时FinalKillSignal=发送 。在我看来这很合理。

您的软件正在处理 SIGTERM,使进程保持活动状态,然后该单元配置为不发送 SIGKILL。systemd 认为这已损坏,警告意味着“服务实现缺陷”。它没有停止。

我不希望 systemctl 命令等到脚本结束

然后在一分钟左右内关闭。服务的用户不想等待它关闭;DefaultTimeoutStopSec=大概是 90 秒。虽然您的服务单位可以增加TimeoutStopSec=,但我认为在 init 脚本中等待某件事停止一个小时是不合理的。

如果您有(同步)停止脚本,请将其实现为ExecStop=。如果没有,请立即将 SIGTERM 处理为正常关闭。将 SIGKILL 保持启用状态作为停止它的最后手段。


除了终止服务进程外,还有其他方法可以阻止服务获取工作。例如,将其从负载平衡器中移除并耗尽负载。

相关内容