鉴于Linux HPC 集群有数百/数千个节点。什么是你的最佳实践尽可能地LINPACK 基准(耐火板) 结果提交为了Top500超级计算机榜单?
为了让您了解我希望得到什么样的答案,这里有一些子问题(带链接):
- 如何你调整参数(
N
,,,,NB
内存对齐等)的文件(不需要花费太多时间尝试每一种可能的排列 - 特别是在问题规模为 N 较大的情况下)P
?Q
HPL.dat
- 有没有500强 投稿规则需要注意什么?哪些是允许的,哪些是不允许的?
- 哪个移动基础设施产品,哪个版本?有区别吗?
- 任何特殊主机顺序在你的 MPI 机器文件中?
- 你使用CPU 固定?
- 如何配置你的互连? 哪些互连?
- 哪个布拉斯您使用的软件包适用于哪种 CPU 型号?(英特尔 MKL,AMD 高性能计算,转到BLAS2, ETC。)
- 你怎么为大行动做好准备(在所有节点上)?先在部分节点上进行小规模运行,然后扩大规模?是否真的有必要使用所有节点上的大运行(或者允许推断)?
- 如何针对最新的 Intel/AMD CPU 进行优化?超线程?NUMA?
- 值得吗重新编译软件堆栈或者你用预编译的二进制文件? 哪些设置?哪些编译器优化,哪个编译器?(基于配置文件的编译怎么样?)
- 如何只给出一个有限的时间进行基准测试?(你可以永远阻止一个巨大的集群)
- 你怎么准备各个节点(停止系统守护进程、释放内存等)?
- 你如何处理硬件故障(毁掉一次巨大的奔跑)?
- 有没有必读文件或网站关于这个话题?例如,我很想听听 背景故事一些当前的Top500系统以及它们如何进行LINPACK基准测试。
我故意不想要提及具体的硬件细节或讨论硬件建议,因为我不想限制答案。但是,请随意提及提示,例如针对特定 CPU 型号。
答案1
尝试一下这个工具,它可能会对你有所帮助,它会为一些关键的 HPL 参数提供调整值建议,并且有在集群上运行 HPL 的分步指南。该工具还会根据您的系统规格估算您在 TOP500 列表中的排名:
http://hpl-calculator.sourceforge.net
希望对你有帮助。