网络文件系统在高 I/O 速度下出现故障

Question

多年来学到的一些建议。

设置 NFS 导出选项：async,insecure,no_subtree_check

设置 NFS 挂载选项soft,noatime,nodiratime,nolock,vers=3

还设置：noatime,nodiratime在数据/tmp/scratch 挂载上。确保 NFS 加密已关闭以减少负载。停止 NFS 锁定过程。

尝试在所有主机上为网络启用 JUMBO 帧（如果网络设备支持） - 将 MTU 设置为 9k 左右。
确保使用 raid10 存储（不惜一切代价避免使用 raid5/6）进行随机写入 IO。有 SSD 吗？
最大化打开的 FS 句柄数（在某些系统上默认为 2K），将其设置为 1M 左右。
是否有可能将包含输入数据的映射数据库复制到本地临时节点存储，然后作为单独的步骤合并/排序生成的 sam 文件？
增加处理块的大小（以便处理至少 30 分钟或更长时间。
如果可能的话尽可能在最高层次上分工（尝试在 10 个不同的节点上并行映射/排序 10 个单独的基因组/样本，而不是尝试使用 10 个主机串联映射每个基因组）。所有进程完成后，尝试检查点。
修改程序源，以便它以更大的块读取数据 - 例如 1M 而不是 4k。
请注意 CPU/RAM 互连争用（尤其是在 AMD 4-8 插槽系统上），有时在 48 核机器上运行 12-24 个线程比 48 个线程快得多。尝试不同的利用率级别。确保 NUMA 已打开并配置为多 CPU 系统。在启用 NUMA 的情况下重新编译。

PS：管理一个高效的集群类似于规划/管理一个拥有 1000 多名工人的建筑工地......

Answer 1

多年来学到的一些建议。

设置 NFS 导出选项：async,insecure,no_subtree_check

设置 NFS 挂载选项soft,noatime,nodiratime,nolock,vers=3

还设置：noatime,nodiratime在数据/tmp/scratch 挂载上。确保 NFS 加密已关闭以减少负载。停止 NFS 锁定过程。

尝试在所有主机上为网络启用 JUMBO 帧（如果网络设备支持） - 将 MTU 设置为 9k 左右。
确保使用 raid10 存储（不惜一切代价避免使用 raid5/6）进行随机写入 IO。有 SSD 吗？
最大化打开的 FS 句柄数（在某些系统上默认为 2K），将其设置为 1M 左右。
是否有可能将包含输入数据的映射数据库复制到本地临时节点存储，然后作为单独的步骤合并/排序生成的 sam 文件？
增加处理块的大小（以便处理至少 30 分钟或更长时间。
如果可能的话尽可能在最高层次上分工（尝试在 10 个不同的节点上并行映射/排序 10 个单独的基因组/样本，而不是尝试使用 10 个主机串联映射每个基因组）。所有进程完成后，尝试检查点。
修改程序源，以便它以更大的块读取数据 - 例如 1M 而不是 4k。
请注意 CPU/RAM 互连争用（尤其是在 AMD 4-8 插槽系统上），有时在 48 核机器上运行 12-24 个线程比 48 个线程快得多。尝试不同的利用率级别。确保 NUMA 已打开并配置为多 CPU 系统。在启用 NUMA 的情况下重新编译。

PS：管理一个高效的集群类似于规划/管理一个拥有 1000 多名工人的建筑工地......

相关内容