在上面发布的图片链接中,我附上了尝试访问文件时遇到的错误。需要注意的是,这个文件在我的 2 TB HDD 中,而我的 ubuntu 操作系统在另一个 500GB SSD 中。有人能帮我解决这个问题吗?
当我使用 GPU 训练机器学习模型(密集读写操作)时会发生这种情况
答案1
最有可能的是,您的 2TB 驱动器上的文件系统不一致。请尝试卸载驱动器并执行 fsck。如果您需要精确的命令,请提供以下命令的输出:
lsblk
df -hPT
答案2
很可能正在发生您提到的频繁读写操作前内核有时间将数据刷新到你的 2 TB 驱动器。
如果您发现上述@xpk 的答案不能解决您的问题,请尝试在机器学习软件的读/写请求之间添加一些睡眠/等待时间。
我自己对此很好奇,请报告一下。