YARN 3 和 Spark：分配 GPU

Question

从 Hadoop 3.0.0 开始，Spark 不再需要太多 YARN 资源（据说 Spark 可以与 Hadoop 2.6+ 配合使用，但隐含的意思是“3.0 及以下版本除外”），因此，一种解决方法是设置yarn.resource-types.yarn.io/gpu.minimum-allocation到 1，并从我的 Python 代码中取消执行器命令（spark 不会在命令行要求 0 执行器的情况下启动 AM）

sc = SparkContext(conf=SparkConf().setAppName("GPU on AM only").set("spark.executor.instances", 0))

虽然不太好看，但是对于我们当前的工作负载来说已经足够了，希望很快能推出“Spark for Hadoop 3.0+”发行版。

编辑：您可以编译 SparkHadoop 3.1 配置文件，从其 GitHub 存储库的当前状态，然后您可以访问spark.yarn..resource.yarn.io/gpu特性！

我也会在这里分享我关于隔离的发现：

经过大约 2 周的各种尝试，我们最终决定彻底清除每个主机，从头开始进行全新安装。仍然没有任何效果。然后我们尝试了“一个工作者”设置，手动设置可计数资源以尝试分配机制，然后…… 没有 Horton 工作！但我当时谷歌搜索更合适。这似乎是与 Hadoop 相关的自定义资源和 CapacityScheduler 问题，请欣赏：

https://issues.apache.org/jira/browse/YARN-9161 https://issues.apache.org/jira/browse/YARN-9205

目前 (3.1.1/3.2.0)，capacity.CapacityScheduler 被一个仅包含 vCores 和 RAM 参数的硬编码枚举破坏。您只需将调度程序类切换为 org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler 您还需要在 yarn.scheduler.fair.resource-calculator=org.apache.hadoop.yarn.util.resource.DominantResourceCalculator 行中将“capacity”替换为“Fair”

您的 GPU 在 yarn ui2 上不可见，但仍在 NodeManager 上，最重要的是，将得到正确分配。这确实很乱。

Answer 1