hadoop/hive 上的数据分布均匀

Question 1

关于hadoop有几件事可能会对你有帮助：

a) 对于集群内运行的进程，块的第一个副本始终写入本地节点。其他副本则在其他地方制作。

b) Hadoop 是为大量节点设计的。这就是为什么默认复制数为 3。对于小型集群，存在许多潜在的问题。如果可能，您应该尝试使用至少 5-10 个节点的集群，即使是为了测试。

根据（a），我建议在集群外的节点上运行 Hive。

Answer

关于hadoop有几件事可能会对你有帮助：

a) 对于集群内运行的进程，块的第一个副本始终写入本地节点。其他副本则在其他地方制作。

b) Hadoop 是为大量节点设计的。这就是为什么默认复制数为 3。对于小型集群，存在许多潜在的问题。如果可能，您应该尝试使用至少 5-10 个节点的集群，即使是为了测试。

根据（a），我建议在集群外的节点上运行 Hive。

Question 2

这可能不是最优化的方法，但如果我的问题是将数据从一个数据节点分发到多个数据节点，我将按照以下方式进行操作。

像之前一样加载数据，然后运行具有多个 Reducer（大约 4 个就可以了）的身份映射器。由于您有 2 个数据节点（我猜有 2 个任务跟踪器），因此将使用两个任务跟踪器来运行作业，最终分发数据。

Answer

这可能不是最优化的方法，但如果我的问题是将数据从一个数据节点分发到多个数据节点，我将按照以下方式进行操作。

像之前一样加载数据，然后运行具有多个 Reducer（大约 4 个就可以了）的身份映射器。由于您有 2 个数据节点（我猜有 2 个任务跟踪器），因此将使用两个任务跟踪器来运行作业，最终分发数据。

相关内容