我试图理解在人工智能训练/推理方面不同类型处理器之间的差异。
据我所知:大型 AI/NN 系统基本上需要大量的矩阵乘法(乘法/累积)。
- 由于范诺依曼瓶颈(每次只有 1 个 ALU 访问内存),CPU 存在巨大的缺陷。
- GPU 通过在方程式中加入大量额外的 CUDA/张量核心部分解决了这个问题,但范诺依曼瓶颈仍然存在
- Google 的 TPU 通过将 ALU 连接成矩阵来解决这一瓶颈。据我所知,所有其他 NPU 的功能都遵循相同的逻辑。
我很清楚 TPU 如何能够利用处理器矩阵在每个时钟周期内实现更多的操作。
-现在有 2 家初创公司:Mythic 和 Synthic 已向市场推出了新的模拟矩阵处理器,据称其速度更快/更高效。
现在,我听说模拟系统可以更节能,因为物理信号本质上是无限精确的,但这种效果不会被噪声破坏吗?而且它不是只对高精度计算更有效吗?
我的问题是:模拟矩阵处理器(例如 Mythic)如何改进经典 TPU?
答案1
我的理解是这些处理器矩阵处理器非常适合此类操作,它们实现SIMD 处理器架构例如,这种处理器仅用 n 步就能求解 n 个未知数的 n 个线性方程组(复杂度为 n**3)。