我正在运行 AWS EC2 系统,实例之间有一个共享的 NFS 分区(5x m3.medium)。我正在使用 上传一个不断增加的二进制文件,其速度比我的最大带宽低约 10 倍(在 2.5MBs 管道上上传 250kBs)rsync --append
。同时,我正在分析 NFS 分区上的文件,并使用 MPI 分发这些计算。
未运行时rsync
,使用 MPI 的分析工作正常,运行二进制文件大约需要 5 秒钟。rsync
运行时,实例之间的 MPI 通信变得非常缓慢,需要几个小时才能完成相同的任务。分析脚本在MPI_File_read_at()
命令中花费的时间最多,读取 NFS 共享分区上的二进制文件。当我停止rsync
并重新运行分析时,速度正常。
我已经研究这个问题几天了,但没有什么进展。我不确定问题是在rsync
ing 文件上使用 MPI,还是通过 NFS 更新文件,还是其他什么原因。我已经大幅限制了 rsync 的带宽(rsync --bwlimit=X
),但速度仍然变慢。
我对这些工具没有太多经验,只是想让系统可以正常工作。如果有人知道是什么原因导致这种延迟,或者我使用的这些方法之间存在其他不兼容性,我将不胜感激。