我正在 AWS 上设置一个计算集群。我正在使用cfncluster
它在主节点上创建所有计算节点都可以访问的 NFS 共享。显然这可能成为瓶颈,我在之前使用 cfncluster 的工作中已经看到了这一点。我之前通过使用SLURM
序言来解决这个问题,该序言将输入文件复制到本地节点,并将作业引用更新为 NFS 路径以转至本地副本。同样,我将作业的输出路径重定向到本地路径,并在作业脚本中添加一行,以在作业完成后将输出文件复制回 NFS 路径。
我今天刚刚了解了 NFS 的 FS-Cache。这似乎可以取代我的输入文件复制,但前提是当程序要求 NFS 路径上的文件的一部分时,我可以让它复制完整的文件。也许从 NFS 复制输入文件并立即删除它们会保留文件缓存?
我想要的另一件事是缓存输出文件,这样如果该节点上运行的下一个作业需要该输出文件,则不必将其从 NFS 复制回来。 FS-Cache 似乎不会缓存对 NFS 的写入,因此我不确定它是否可以实现这一点。如果我错了请赐教!