高 FLOP 设置下的 CUDA 与张量核心

2024-9-28 • tag-icon

对于小型模型，RTX2080S 的训练速度比 GTX1070 快 1.6 倍。但是，对于具有 1+ TFLOPS 的模型，它训练x6更快——但我不明白为什么。

RTX 的核心数量仅为 GTX 的 1.6 倍（3072对比1920) 和相似的时钟速度，但 RTX 具有 384 个张量核心。基准比较但是没有显示 500% 以上的任何数字。

这是预料之中的吗？如果是，如何解释？张量核心是否具有更大的“FLOP 容量”？

环境：自动混合精度，PyTorch；相同的软件（操作系统、Anaconda 环境）、模型、数据集；RAM 和 VRAM 未饱和。“训练”= 在输入数组上应用大量数学运算，“更大的模型”= 在更多数据上进行更多数学运算（同时，即并行）。

相关内容