Lustre 故障:延迟数分钟

Lustre 故障:延迟数分钟

使用 HPC lustre 文件系统时,我们偶尔会遇到故障,即使只是打开终端并输入“ls”,也需要几分钟才能返回。也就是说,涉及文件系统的任何进程都会随机出现大量延迟(但通常不会产生实际错误),而不涉及文件系统的进程(例如在 x-windows 会话中拖动窗口)仍保持响应。

什么可能导致 Lustre 间歇性地表现出过度延迟?(一定是硬件故障、配置错误、文件系统接近满,还是当天某些分布式并行作业的不良使用模式?)

相关内容