什么会导致 NFS 文件移动/删除操作失败？

Question 1

简短回答：您的本地 NFS 认为不存在文件或目录。（是的，你有点怀疑）

NFS 是一项古老的技术。它不适用于高访问量、快速变化的文件。对于动态共享文件系统，请尝试集群解决方案，例如 OCFS2（我的最爱）或 gluster（嗯，Dark Side）。

几年前，我们有 4 台服务器安装了一个通用的 NFS，并且多次发现其中一台服务器会创建其他服务器看不到的文件。这 4 台服务器是 Web 应用程序服务器。用户将启动一个操作，让服务器创建一个包，并在完成后使用该文件的 NFS 路径更新数据库中的一行。用户的浏览器将每隔 10 秒检查一次，看看工作是否完成，以及是否需要下载文件。您可以看到问题即将到来 - 服务器将更新数据库中文件所在的行，但另一台服务器将从用户浏览器获取请求 - 它将读取文件并收到“文件未找到”错误。

正如你所说，当管理员查看它时，文件就在那里。我们几个工程师花了几周时间才找到问题所在。基本上，我们运行了一个 10 秒的睡眠循环，它将获取数据库中指示的最后创建的文件路径，并尝试将文件写入日志。创建该文件的系统始终可以看到该文件，但其他系统在一段时间内看不到该文件。随着服务器负载的增加，时间间隔变得更长。

尖头老板们不想将底层 NFS 更改为集群文件系统，因此我们还让工作服务器保存“他”是在数据库中创建文件的人。用户的请求将不断重试，直到作业完成并且请求到达创建该文件的服务器，以便该文件始终可供读取。是的，我知道。克鲁奇。但这就是当你决定保留旧技术时你会得到的结果——你必须拼凑才能让事情发挥作用。旧技术是第一个拼凑，而与之相关的所有工作都只是更多的拼凑。欢迎回到 80 年代，Max Headroom 的 FS 选择。

NFS 并不能让所有客户端实时同步所有更改。因此，您会不断遇到这样的情况：一个客户端创建文件/目录，而另一个客户端看不到它，或者一个客户端删除文件/目录，而其他客户端认为它仍然存在（直到他们尝试使用它 - 哎呀））。

我们尝试了各种技巧，让系统在尝试读取文件之前重新同步其客户端缓存。没有发生。

我的建议：把你的FS带入这个世纪。（尝试通量电容器 @ 88mph）

Answer

简短回答：您的本地 NFS 认为不存在文件或目录。（是的，你有点怀疑）

NFS 是一项古老的技术。它不适用于高访问量、快速变化的文件。对于动态共享文件系统，请尝试集群解决方案，例如 OCFS2（我的最爱）或 gluster（嗯，Dark Side）。