Linux 中过时文件锁的处理和集群的稳健使用

Question 1

锁flock与文件描述对象相关联；一旦所有引用文件描述的文件描述符都被关闭，它就会消失（参见the foll.2 联机帮助页）。

如果文件仍然被锁定，那么几乎可以肯定文件描述符仍然被原始进程或子进程引用（假设您没有使用文件描述符传递之类的东西来在原始进程层次结构之外传播对它的引用）。

我建议检查一下sudo fuser $lock_path。

要解决这个问题，我知道有两种方法：要么阻止 shell 让子进程继承文件描述符，要么杀死所有仍在引用它的进程，例如使用fuser -k ....

您看到的路径不完整，因为lslocks用于/proc/locks收集信息；该文件包含挂载点的标识符以及获取锁定的进程的信息，但不包含锁定文件的路径。如果lslocks在检查该进程时找不到持有锁的文件描述符，它将回退到仅打印安装点。

Answer

锁flock与文件描述对象相关联；一旦所有引用文件描述的文件描述符都被关闭，它就会消失（参见the foll.2 联机帮助页）。

如果文件仍然被锁定，那么几乎可以肯定文件描述符仍然被原始进程或子进程引用（假设您没有使用文件描述符传递之类的东西来在原始进程层次结构之外传播对它的引用）。

我建议检查一下sudo fuser $lock_path。

要解决这个问题，我知道有两种方法：要么阻止 shell 让子进程继承文件描述符，要么杀死所有仍在引用它的进程，例如使用fuser -k ....

您看到的路径不完整，因为lslocks用于/proc/locks收集信息；该文件包含挂载点的标识符以及获取锁定的进程的信息，但不包含锁定文件的路径。如果lslocks在检查该进程时找不到持有锁的文件描述符，它将回退到仅打印安装点。

Question 2

我在羊群中也遇到了同样的问题。 thejh 使用 fusion 的建议帮助我找到了问题所在。事实证明，我用集群运行的命令启动了一个保留在后台的子进程。因此，即使原始命令完成，flock 也不会解锁该文件，因为子进程持有该锁。

解决方案：flock --close

“manflock”说 --close 将“在执行命令之前关闭持有锁的文件描述符。如果命令生成一个不应持有锁的子进程，这非常有用。”

这完全解决了我的问题。

Answer

我在羊群中也遇到了同样的问题。 thejh 使用 fusion 的建议帮助我找到了问题所在。事实证明，我用集群运行的命令启动了一个保留在后台的子进程。因此，即使原始命令完成，flock 也不会解锁该文件，因为子进程持有该锁。

解决方案：flock --close

“manflock”说 --close 将“在执行命令之前关闭持有锁的文件描述符。如果命令生成一个不应持有锁的子进程，这非常有用。”

这完全解决了我的问题。

Question 3

我现在已经通过使用一种完全不同的方式来确保脚本只运行一次来解决这个问题。这并没有回答我原来的问题，但我会在这里分享，以防对其他人有帮助：

我现在正在使用 pgrep 检查有多少进程正在以相同的名称运行。 Twitter 上已经向我指出了这种可能性。我认为这种方法唯一可能的缺点是，如果您有多个同名脚本，它会产生干扰。但是可以通过使用足够具体的脚本名称来避免这种情况。

这是我正在使用的代码：

PNAME="$(basename "$0")"
if [[ "$(pgrep -c -u $USER $PNAME )" -ne 1 ]]; then
    exit 1
fi

Answer

我现在已经通过使用一种完全不同的方式来确保脚本只运行一次来解决这个问题。这并没有回答我原来的问题，但我会在这里分享，以防对其他人有帮助：

我现在正在使用 pgrep 检查有多少进程正在以相同的名称运行。 Twitter 上已经向我指出了这种可能性。我认为这种方法唯一可能的缺点是，如果您有多个同名脚本，它会产生干扰。但是可以通过使用足够具体的脚本名称来避免这种情况。

这是我正在使用的代码：

PNAME="$(basename "$0")"
if [[ "$(pgrep -c -u $USER $PNAME )" -ne 1 ]]; then
    exit 1
fi

相关内容