我整个上午都在成功运行一些 TensorFlow 代码,其中包括从文件夹加载相对较大的图像(1mb)以用于训练模型。
我不确定这是否相关,但早些时候,当我使用所有 4 个 GPU 时,我遇到了断电。系统重新启动正常。但从那时起,我的整个系统在做任何事情时都很慢 - 尤其是打开文件夹。包含图像(150 张,1mb 图像)的文件夹速度慢得离谱。打开文件夹时,图像本身显示图像加载缓慢(非常慢 - 每张图片大约 1 分钟)
我查看了内存使用情况(顶部,来自终端;这些是前几个)
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
297 root 20 0 0 0 0 R 35.9 0.0 15:10.55 md126_raid5
303 root 20 0 0 0 0 D 29.9 0.0 9:15.02 md126_resy+
1387 root 20 0 800764 331476 97912 S 9.3 0.3 4:22.46 Xorg
4300 simon 20 0 686220 49528 35004 S 5.6 0.0 1:56.81 gnome-syst+
1493 root -51 0 0 0 0 S 4.0 0.0 0:23.52 irq/76-nvi+
2583 simon 20 0 1898420 436948 92080 S 3.0 0.3 2:00.12 compiz
1498 root -51 0 0 0 0 S 2.0 0.0 0:22.59 irq/78-nvi+
1495 root -51 0 0 0 0 S 1.0 0.0 0:27.90 irq/77-nvi+
3065 simon 20 0 663544 41244 28168 S 0.7 0.0 0:06.64 gnome-term+
我的系统有 128 GB RAM、8T HD、3.2Ghz 处理器和 4 个 1080ti GPU。
我不知道如何调试。我下载了 BleachBit 并使用它来清除所有未使用和旧文件。
我怎样才能彻底解决这个问题? - 我对 Ubuntu 还很陌生。
编辑:
glxinfo | grep renderer
给出
OpenGL renderer string: GeForce GTX 1080 Ti/PCIe/SSE2
和
cat /proc/mdsat
给出
Personalities : [raid6] [raid5] [raid4] [linear] [multipath] [raid0] [raid1] [raid10]
md126 : active raid5 sdb[2] sdc[1] sdd[0]
7814032384 blocks super external:/md127/0 level 5, 128k chunk, algorithm 0 [3/3] [UUU]
[=================>...] resync = 89.7% (3507217748/3907016320) finish=59.0min speed=112852K/sec
md127 : inactive sdb[2](S) sdd[1](S) sdc[0](S)
6780 blocks super external:imsm
unused devices: <none>
答案1
您的 RAID 似乎正在重新同步。考虑到您的硬盘大小,这可能需要相当长的时间。