我真的不知道这个问题应该在 Server Fault 还是 Stack Oveflow 上,但我想我应该先在这里尝试一下。
我有一个 python 应用程序,它对 os 文件系统调用(例如 stat 和 getcwd)进行了大量调用。该应用程序由 SGE 队列管理器在通过 infiniband 互连连接到节点的 Lustre 文件系统上运行。
在大多数情况下,系统运行良好。但偶尔会有文件无法统计,或者 getcwd 将返回我的主目录,而不是应用程序运行所在的目录。几毫秒后,它将再次返回正确的结果。
我不是系统管理员,我正在与系统管理员一起研究应用程序可能做了什么导致这种情况。我确信当这种情况发生时,不会在任何地方记录任何错误,也不会记录实际的目录更改。
该问题目前完全是偶然发生的,我们无法使其重现。
有人知道会发生什么吗?