2 个 NFS 客户端上的 md5sum 不同

Question 1

我建议阅读“数据和元数据一致性”部分nfs 手册页。

NFS 版本 3 协议引入了“弱缓存一致性”（也称为 WCC），它提供了一种在单个请求之前和之后有效检查文件属性的方法。这允许客户端帮助识别其他客户端可能做出的更改。

特别是，您需要使用noac：

当 noac 生效时，客户端的文件属性缓存将被禁用，因此每个需要检查文件属性的操作都会被强制返回到服务器。这样客户端就可以非常快速地查看文件的更改，但需要进行许多额外的网络操作。

唉，

noac 挂载选项可防止客户端缓存文件元数据，但仍存在可能导致客户端和服务器之间的数据缓存不一致的竞争。

O_DIRECT因此，如果noac它不能为您解决问题，您可能需要用标志打开文件。

NFS 协议并非设计为在没有某种类型的应用程序序列化的情况下支持真正的集群文件系统缓存一致性。如果需要客户端之间的绝对缓存一致性，应用程序应使用文件锁定。或者，应用程序也可以使用 O_DIRECT 标志打开其文件以完全禁用数据缓存。

Answer

我建议阅读“数据和元数据一致性”部分nfs 手册页。

NFS 版本 3 协议引入了“弱缓存一致性”（也称为 WCC），它提供了一种在单个请求之前和之后有效检查文件属性的方法。这允许客户端帮助识别其他客户端可能做出的更改。

特别是，您需要使用noac：

当 noac 生效时，客户端的文件属性缓存将被禁用，因此每个需要检查文件属性的操作都会被强制返回到服务器。这样客户端就可以非常快速地查看文件的更改，但需要进行许多额外的网络操作。

唉，

noac 挂载选项可防止客户端缓存文件元数据，但仍存在可能导致客户端和服务器之间的数据缓存不一致的竞争。

O_DIRECT因此，如果noac它不能为您解决问题，您可能需要用标志打开文件。

NFS 协议并非设计为在没有某种类型的应用程序序列化的情况下支持真正的集群文件系统缓存一致性。如果需要客户端之间的绝对缓存一致性，应用程序应使用文件锁定。或者，应用程序也可以使用 O_DIRECT 标志打开其文件以完全禁用数据缓存。

Question 2

免责声明：首先，我不使用 Ubuntu。其次，我是“老派”。第三，文档可能不同意我的观点（请参阅第二条免责声明）。

布拉夫：这可能是时间、缓存或缓冲问题。

解释：在里面过去，程序实际上不会立即写入磁盘。操作系统实际上会将文件数据发送到缓冲区。当缓冲区（几乎）已满时，缓冲区将冲洗写入磁盘。即缓冲区的内容随后将被物理写入磁盘本身。

对于磁盘阵列，有时磁盘控制器也会有一个缓存。数据到达控制器的速度可能比磁盘写入的速度快，因此它将被缓存在控制器中，直到磁盘能够赶上。

对于网络流量，数据通常以数据包的形式传输。TCP/IP 无法保证数据包会按照发送的顺序到达。因此，有一个缓冲区可以保存数据包并按正确的顺序重新组装它们。

今天，缓冲区应该立即缓存。在过去，我们会运行命令sync来强制刷新缓冲区。

我在这里看到的问题是：
每个服务器都有一个“下一个块号”，当轮到它时，它应该开始写入。服务器 A 和服务器 B 之间的这个值可能不同步。

缓存或缓冲区可能写入速度不够快。例如，服务器 A 必须将其数据发送到服务器 C。服务器 C 必须将其物理写入磁盘。服务器 B 必须从磁盘重新读取文件，然后才能“看到”它。
这意味着服务器 B 的数据中可能存在服务器 A 之前刷新的漏洞。反之亦然。

服务器 C（NFS 服务器）可能因读/写请求而超载。服务器 C（NFS 服务器）是否还有不同的校验和？

服务器 A 和服务器 B 可能重读速度不够快。

希望这可以让您了解在哪里寻找答案。

可能的故障排除步骤： 是否可以关闭网络，sync在每台服务器上运行几个命令，然后查看是否匹配？
文件最终会赶上吗？您提到了数据中的漏洞。

如您所见，根据machine01，文件中有空填充，但根据machine02没有。

一段时间后（TBD），填充是否会填充缺失的数据？如果是这样，则存在缓冲或计时问题。如果没有，则整个系统设计存在更大的问题。
您可以重新考虑 2 个服务器的问题吗？您可以只让 1 个服务器接管所有写入，并在必要时将故障转移到另一台服务器吗？
您的配置中是否有可以调整的缓存参数或计时值？

Answer