NFS 服务器对客户端无响应 - 进程“迁移”和“xfssyncd”消耗了异常 CPU

Question

我的 RHEL 6.10 也存在类似的问题。唯一似乎有帮助的方法是终止 NFS 客户端上长时间运行的用户 sftp 进程。这些进程是由基于 GUI 的 SFTP 客户端（例如 WinSCP、Nimble Commander）保持打开数小时（超过 10 小时）的。

监控显示一些 NFSv3 客户端活动与问题同时发生，但该活动实际上低于其他客户端（有 > 100 个客户端）上不会导致问题的一些其他典型活动。

实际上也没有完成很多的 i/o。

更新 2019-12-10：根本原因似乎是 NFS 服务器上的 XFS 配额。用户主目录有配额限制，软限制比硬限制低 2 GB。一些用户尝试安装完整的 Anaconda Python，这超出了软限制。Anaconda 安装程序似乎没有办法拦截警告，并不断下载超过软限制的文件。这产生了大量的配额警告，完全拖慢了系统，使其无响应。

我说“似乎”是因为证据是间接的。当用户尝试安装到没有配额的目录中时，一切都很顺利。

Answer 1

我的 RHEL 6.10 也存在类似的问题。唯一似乎有帮助的方法是终止 NFS 客户端上长时间运行的用户 sftp 进程。这些进程是由基于 GUI 的 SFTP 客户端（例如 WinSCP、Nimble Commander）保持打开数小时（超过 10 小时）的。

监控显示一些 NFSv3 客户端活动与问题同时发生，但该活动实际上低于其他客户端（有 > 100 个客户端）上不会导致问题的一些其他典型活动。

实际上也没有完成很多的 i/o。

更新 2019-12-10：根本原因似乎是 NFS 服务器上的 XFS 配额。用户主目录有配额限制，软限制比硬限制低 2 GB。一些用户尝试安装完整的 Anaconda Python，这超出了软限制。Anaconda 安装程序似乎没有办法拦截警告，并不断下载超过软限制的文件。这产生了大量的配额警告，完全拖慢了系统，使其无响应。

我说“似乎”是因为证据是间接的。当用户尝试安装到没有配额的目录中时，一切都很顺利。

NFS 服务器对客户端无响应 - 进程“迁移”和“xfssyncd”消耗了异常 CPU

答案1

相关内容