我的问题是:GPU 的 VRAM 带宽真的是深度神经网络的瓶颈吗?
更长的版本:一个叫 Tim Dettmers 的人他在博客中写道,图形处理器本身的所有相关操作都比带宽提供新数据的速度快。这似乎是合理的。但是昨天我做了自己的实验,发现我的 GPU 并非如此。它是带有 1GB VRAM 的 Nvidia GTX 560TI。如您所见,这是一张相当慢的卡,并且 VRAM 不多。对于 AlexNet 和 128x128 图像以及批处理大小为 4 - 较大的图像不适合我的 VRAM - 情况如下:2200 Mhz 内存时钟:13:34 分钟 1650 Mhz 内存时钟:14:17 分钟
几乎没有加速。95.3% 的时间都使用 1 1/3 内存时钟速度。现在可能是这样,在我的情况下,图形处理器确实太慢,或者批处理大小太小,因此受到 PCIe 带宽(PCIe 2.0)的限制。我也在自己的网络上尝试过,使用约 100 万个参数和各种批处理大小,最高 1024,带有 40x40 图像。几乎没有区别。
在我不太具有代表性的实验之后,我仍然不确定 GPU 性能到底是什么才是真正重要的。
编辑:在这种情况下,框架是 Nvidia Digits 和 Nvidia caffe fork。我知道我的 GPU 非常慢,但我的问题是关于 GPU 的一般问题。