我使用 Keras/Tensorflow 参加 Kaggle 的 Galaxy Zoo 竞赛,但海量的数据(大量图像)让我的电脑陷入了困境。我的电脑或多或少是一台普通的 PC(i5),内存为 48GB,尽管我无法使用 GPU(我的显卡不兼容 CUDA)。我使用 Ubuntu 和 Anaconda 组合。
实际问题是 Python 在将图像从磁盘读入堆叠的 numpy 数组时抛出了“内存错误”。看来我的内存不足以完成这项工作,我可以想象对于任何严肃的任务来说都是如此(当然,除了 MNIST 分类之外还有项目)。
所以,我的问题是,什么是能够处理这种规模的工作的基础设施?我如何才能获得它?实际上,这里真正的瓶颈是什么?内存?top
Linux 命令显示,在运行 Python 进程的情况下,内存使用率仅约为 10%,这很奇怪。
当然,我不是机构玩家的水平,所以只有合理的成本才是可以接受的......