GCP Data Fusion 运行 Dataproc 管道时出错

GCP Data Fusion 运行 Dataproc 管道时出错

我们正在尝试在我们的架构中部署一个基本的数据融合实例。我们能够部署它,但是当我们运行一个简单的纽约时报 10 美元以下畅销书来自 Hub/Pipelines 的管道,当按下按钮时我们会收到错误Run

我们已经在一个新项目中成功部署了此管道,但是当我们将其部署到我们 Org 结构中的主要项目中时,我们收到了 VM 到 VM 通信的错误:

2020-04-22 23:12:08,272 - 警告 [provisioning-service-8:iccrspdDataprocProvisioner@194] - 创建 Dataproc 集群时遇到 1 条警告:指定网络或子网的防火墙规则可能不允许足够的虚拟机到虚拟机通信,从而使 Dataproc 正常运行。请参阅https://cloud.google.com/dataproc/docs/concepts/network有关 Dataproc 所需网络设置的信息。

我们已审阅并检查了建议的文档,但仍然无法找到允许的端口或 IP 地址。

答案1

由于 Dataproc 虚拟机在虚拟机上运行许多 OSS 服务,并且每个虚拟机都使用不同的端口集,因此防火墙规则中没有预先定义允许通信的端口和 IP 地址列表。您应该做的是允许所有虚拟机通过内部集群网络中的所有端口和 IP 地址进行集群内通信。

此外,这是一个可能产生误报的警告,因此,如果您的管道即使出现此警告仍能正确执行,那么您可以忽略它。

相关内容