脚本在 50 台服务器上运行。如何确保只有一台服务器执行特定步骤？

Question 1

三种解决方案。

手动运行“checkout”步骤，或者在其中一个服务器上单独运行脚本。这似乎是最好的方法——否则你可能会陷入竞争状态。
如果您愿意接受遇到竞争条件的可能性，您当然可以尝试在第一个脚本运行时创建一个带有特定日期戳的文件。或者，如果日期足够可靠，您可以尝试检查签出文件的最后修改日期。
如果确实禁止定制，那么让每个虚拟机制作自己的文件副本来处理，而不是尝试使用共享卷。

每种方法都有其利弊，但你还没有真正说清楚为什么要以这种方式设计解决方案。

Answer

三种解决方案。

手动运行“checkout”步骤，或者在其中一个服务器上单独运行脚本。这似乎是最好的方法——否则你可能会陷入竞争状态。
如果您愿意接受遇到竞争条件的可能性，您当然可以尝试在第一个脚本运行时创建一个带有特定日期戳的文件。或者，如果日期足够可靠，您可以尝试检查签出文件的最后修改日期。
如果确实禁止定制，那么让每个虚拟机制作自己的文件副本来处理，而不是尝试使用共享卷。

每种方法都有其利弊，但你还没有真正说清楚为什么要以这种方式设计解决方案。

Question 2

如果没有大量的工程来实现，网络上就不会有真正的原子性，而且需要的工程越多，它就会越复杂。

需要考虑很多权衡。这个答案无法告诉你在工作完成一半时该做什么。

NFSv3 在较新的内核中支持原子锁定机制（坦率地说，相当老旧）http://nfs.sourceforge.net/#faq_d10。因此，理论上信号量的某些机制可以通过以下方式实现。

主机上已存在“完成”文件。（这仅适用于脚本 2）
使用在主机上打开“acquire”文件O_EXCL。
将“done”重命名为“done.old”。
在这里做你的特殊工作。
使用在主机上打开一个“完成”文件O_EXCL。
取消链接‘done.old’。
取消“获取”链接

这里有一些尝试这样做的模板 shell 脚本。

#!/bin/bash
# WARNING: This is a cricital line! NEVER EDIT THIS
set -e -o noclobber

BASEPATH=/tmp
cd "${BASEPATH}"

# 1. A done file exists on the host already (this is a signal for script 2 only)
# 2. Open an 'acquire' file on the host using `O_EXCL`.
echo > 'acquire'

# 3. Rename 'done' to 'done.old'.
mv 'done' 'done.old' 2>/dev/null || :

# 4. Do your special work here.
echo "How much wood could a woodchuck chuck if a woodchuck could chuck wood?"

# 5. Open a 'done' file using O_EXCL
echo > 'done'

# 6. Unlink 'done.old'.
unlink 'done.old' || :

# 7. Unlink 'acquire'.
unlink 'acquire'

最重要的一行是，set -e -o noclobber它有两个用途。

它确保如果任何命令失败，脚本就会退出。
该脚本不会覆盖文件（使得打开发生在 O_EXCL 中）。

考虑到set标准，最重要的功能部分是echo > acquire哪个将自动打开获取的文件。如果失败（因为其他人拥有它，即使同时发生两次打开，也只有一个会获胜），选项可-e确保set我们退出脚本。

永远不应该有两个这样的脚本同时运行。但是这个脚本不是提供一个解决方案，其中两个脚本一个接一个地运行（在当前形式下是允许的）。我猜最好的方法是将“完成”文件更改为某个带有时间戳的命名文件，在进程开始之前查找该文件的存在。因此，这假设依靠时间作为媒介来确定代码关键性的安全性是“安全的”。

我确实提到过，这并不具体。目前，这为您提供了两个进程不能同时索取文件的保证。如上所述，需要进行更多修改以允许它在存在“完成”文件时不启动。

未涵盖的其他内容包括：

如果过程启动但尚未完成怎么办？
如果共享目录在之前或者中途不可用该如何处理。
如果主机在第 4 步执行“安全”操作的时间太长，这会对下次运行时产生什么影响？完成后我们应该使用旧实例还是新实例？

为了解决这些问题，需要一种“隔离”机制（大量改变基础设施）来真正保证在另一台主机上重新获取锁是一项安全的操作。

Answer