为什么存在 SIMD CPU 扩展？

Question

仅仅因为你可以在 GPU 上做某事并不意味着在 GPU 上做这件事是最好的地方。

当您有大量数据需要执行相同操作时，GPU 的效果最佳。对于小批量数据，使用 CPU 代码内联运行可能更有效率。

GPU 的一个问题是，它需要 CPU 从某个地方获取数据，将其加载到 RAM 中，通过 PCIe 总线复制，在 GPU 上加载程序来处理数据，运行该程序，然后将结果复制回 CPU RAM。只有完成所有这些工作后，CPU 才能对数据进行处理。

如果您的 CPU 有一组针对此类操作的指令，并且不需要完成设置 GPU 的所有工作，那么您可能会发现对于少量数据，CPU 实际上更快。

当数据紧密依赖于 CPU 控制结构或数据寿命特别短暂时尤其如此。

如果 CPU 只需要 0.1 秒就能完成SHA 哈希使用 SSE 或 AVX，真的值得花 0.1 秒将数据发送到 GPU，再花 0.25 秒为该特定 GPU 编译着色器程序，然后等待数据返回吗？

当您饿了并且需要一些东西时，您会在线订购食物然后等待，还是直接从已经储备好的冰箱里拿东西？

Answer 1

仅仅因为你可以在 GPU 上做某事并不意味着在 GPU 上做这件事是最好的地方。

当您有大量数据需要执行相同操作时，GPU 的效果最佳。对于小批量数据，使用 CPU 代码内联运行可能更有效率。

GPU 的一个问题是，它需要 CPU 从某个地方获取数据，将其加载到 RAM 中，通过 PCIe 总线复制，在 GPU 上加载程序来处理数据，运行该程序，然后将结果复制回 CPU RAM。只有完成所有这些工作后，CPU 才能对数据进行处理。

如果您的 CPU 有一组针对此类操作的指令，并且不需要完成设置 GPU 的所有工作，那么您可能会发现对于少量数据，CPU 实际上更快。

当数据紧密依赖于 CPU 控制结构或数据寿命特别短暂时尤其如此。

如果 CPU 只需要 0.1 秒就能完成SHA 哈希使用 SSE 或 AVX，真的值得花 0.1 秒将数据发送到 GPU，再花 0.25 秒为该特定 GPU 编译着色器程序，然后等待数据返回吗？

当您饿了并且需要一些东西时，您会在线订购食物然后等待，还是直接从已经储备好的冰箱里拿东西？

相关内容