我正在尝试对机器学习算法的可行性/可扩展性形成一种直觉。主要成本始终是矩阵乘法,但似乎没有现成的 Google 资源来解释如何对矩阵乘法进行粗略计算。
我使用的机器的规格:它有一个 2.8GHz Ivy Bridge 四核处理器,8 Mb 共享 L3 缓存,5 GT/s 总线速度和 16 GB RAM。堆栈溢出条目显示 Ivy Bridge 的吞吐量为 8 DP flops/秒。假设矩阵及其乘积可以同时存储在 RAM 中,我如何将所有这些数字结合起来以粗略估计将两个给定大小的双精度矩阵相乘需要多长时间(以秒为单位)?