Hadoop 数据节点 - 先从一个磁盘开始，稍后再添加更多磁盘，或者先从尽可能多的磁盘开始，然后均匀填充它们

Question

首先，主轴数量与 MapReduce 作业的性能直接相关（在一定程度上）。一般来说，您希望每个主轴配备 1-2 个 CPU 核心。

其次，事后平衡额外的主轴可能是一个挑战。直到最近才添加了代码来在主轴之间进行数据节点内重新平衡。常规平衡器只在节点之间进行平衡，因此您仍然可能会得到不平衡的主轴。有一些支持调整块放置策略，以便在您添加新主轴时随着时间的推移保持平衡，但这意味着新数据只会写入最少使用的主轴。

第三，目前我可能不会使用超过 12 个 6TB 驱动器（或每个数据节点约 72TB）。这将处理几百万个数据块。除此之外，您开始遇到一些需要集群调整的性能问题，因为诸如数据节点块报告之类的事情花费的时间太长。这在很大程度上取决于您的用例。

我见过驱动器密度更高的集群，但需要进行大量调整才能使其工作（即使这样仍然存在问题）。

Answer 1

首先，主轴数量与 MapReduce 作业的性能直接相关（在一定程度上）。一般来说，您希望每个主轴配备 1-2 个 CPU 核心。

其次，事后平衡额外的主轴可能是一个挑战。直到最近才添加了代码来在主轴之间进行数据节点内重新平衡。常规平衡器只在节点之间进行平衡，因此您仍然可能会得到不平衡的主轴。有一些支持调整块放置策略，以便在您添加新主轴时随着时间的推移保持平衡，但这意味着新数据只会写入最少使用的主轴。

第三，目前我可能不会使用超过 12 个 6TB 驱动器（或每个数据节点约 72TB）。这将处理几百万个数据块。除此之外，您开始遇到一些需要集群调整的性能问题，因为诸如数据节点块报告之类的事情花费的时间太长。这在很大程度上取决于您的用例。

我见过驱动器密度更高的集群，但需要进行大量调整才能使其工作（即使这样仍然存在问题）。

相关内容