高 FLOP 设置下的 CUDA 与张量核心

高 FLOP 设置下的 CUDA 与张量核心

对于小型模型,RTX2080S 的训练速度比 GTX1070 快 1.6 倍。但是,对于具有 1+ TFLOPS 的模型,它训练x6更快——但我不明白为什么。

RTX 的核心数量仅为 GTX 的 1.6 倍(3072对比1920) 和相似的时钟速度,但 RTX 具有 384 个张量核心。基准比较但是没有显示 500% 以上的任何数字。

这是预料之中的吗?如果是,如何解释?张量核心是否具有更大的“FLOP 容量”?

环境:自动混合精度,PyTorch;相同的软件(操作系统、Anaconda 环境)、模型、数据集;RAM 和 VRAM 未饱和。“训练”= 在输入数组上应用大量数学运算,“更大的模型”= 在更多数据上进行更多数学运算(同时,即并行)。

相关内容