如何取得最佳 LINPACK 结果并跻身 Top500?

如何取得最佳 LINPACK 结果并跻身 Top500?

鉴于Linux HPC 集群有数百/数千个节点。什么是你的最佳实践尽可能地LINPACK 基准耐火板) 结果提交为了Top500超级计算机榜单

为了让您了解我希望得到什么样的答案,这里有一些子问题(带链接):

  • 如何你调整参数N,,,,NB内存对齐等)的文件(不需要花费太多时间尝试每一种可能的排列 - 特别是在问题规模为 N 较大的情况下)PQHPL.dat
  • 有没有500强 投稿规则需要注意什么?哪些是允许的,哪些是不允许的?
  • 哪个移动基础设施产品,哪个版本?有区别吗?
  • 任何特殊主机顺序在你的 MPI 机器文件中?
  • 你使用CPU 固定
  • 如何配置你的互连? 哪些互连?
  • 哪个布拉斯您使用的软件包适用于哪种 CPU 型号?(英特尔 MKLAMD 高性能计算转到BLAS2, ETC。)
  • 你怎么为大行动做好准备(在所有节点上)?先在部分节点上进行小规模运行,然后扩大规模?是否真的有必要使用所有节点上的大运行(或者允许推断)?
  • 如何针对最新的 Intel/AMD CPU 进行优化?超线程NUMA
  • 值得吗重新编译软件堆栈或者你用预编译的二进制文件? 哪些设置?哪些编译器优化,哪个编译器?(基于配置文件的编译怎么样?)
  • 如何只给出一个有限的时间进行基准测试?(你可以永远阻止一个巨大的集群)
  • 你怎么准备各个节点(停止系统守护进程、释放内存等)?
  • 你如何处理硬件故障(毁掉一次巨大的奔跑)?
  • 有没有必读文件或网站关于这个话题?例如,我很想听听 背景故事一些当前的Top500系统以及它们如何进行LINPACK基准测试。

我故意想要提及具体的硬件细节或讨论硬件建议,因为我不想限制答案。但是,请随意提及提示,例如针对特定 CPU 型号。

答案1

尝试一下这个工具,它可能会对你有所帮助,它会为一些关键的 HPL 参数提供调整值建议,并且有在集群上运行 HPL 的分步指南。该工具还会根据您的系统规格估算您在 TOP500 列表中的排名:

http://hpl-calculator.sourceforge.net

希望对你有帮助。

相关内容