我如何才能缩小文件路径损坏的原因范围?

我如何才能缩小文件路径损坏的原因范围?

目前,在使用 Python 脚本训练深度学习模型时,我在 Ubuntu 20.04 下遇到了奇怪的问题。似乎随机地,我遇到了段错误或奇怪的错误,其中文件路径名被损坏,如下所示:

File "/home/hossein/pytorch-image-models/timm/data/parsers/parser_image_folder.py", line 58, in __getitem__
      return open(path, 'rb'), target
FileNotFoundError: [Errno 2] No such file or directory: '/media/hossein/SSD_IMG/ImageNet_DktaSet/txain/n01\x0819313/n01819313U7072.JPMG'

正确的文件名是:/media/hossein/SSD_IMG/ImageNet_DataSet/train/n01819313/n01819313_7072.JPEG
这似乎只发生在我使用超过 8 个工作程序(例如 20 个线程)时,并且只需要大约 12 到 13 分钟就会出现这样的错误(它完成了一轮所有训练数据,并且仅在第二轮,中间出现错误)。
我有足够的 RAM 大约 32GB,并且用于交换,并且交换设置为 10。
当发生此类错误时,我的大部分 RAM 和交换空间都是空的,所以我不确定这是否是内存问题(例如 RAM 是 19/32 而交换是 4/32),但它看起来像是内存问题!对我来说所以我成功运行了一些测试,例如 memtest 6 个小时以上,然后进行了 2 小时的 Aida64 缓存和内存测试。NVME
驱动器是Samsung 980 1tb,HDD sentinel 和 CrystalDisk 都显示 100% 的健康状况没有任何问题。(顺便说一下,有问题的分区是 ext4)

我该如何识别和消除这种情况的原因?是否有一个应用程序可以用来模拟多线程 IO 工作负载,并查看我的 NVME 是否在此工作负载下出现故障,或者是否是硬件问题,如果是,RAM/CPU/MB 到底是什么?

相关内容