我们正在处理巨大的 Hadoop 集群。
我们有736台数据节点机器,每个节点有16核X2线程。
在一些机器上,我们看到了 CPU 平均负载(5 分钟内为 98-128)。
经过深入调查,我们发现:
no HW problem
no Disk proble
no network problem
no infra problem
我们还没有检查的是调整 Linux 参数和调整内核参数。
哪些参数或任何内核参数可以帮助机器在大多数 CPU 低负载平均情况下获得良好的 CPU 运行。
http://linuxrealtime.org/index.php/Improving_the_Real-Time_Properties
答案1
性能调优是一个复杂而庞大的领域,需要考虑硬件、内核参数、软件设置、设置架构等诸多因素。
由于您正在运行大型设置,因此有必要深入研究该领域,因此我建议从阅读 RHEL 性能调优指南开始。它应该会提供关于该主题的良好指南,并提供各种建议和想法。
您的问题包含的信息和细节太少,无法在内核参数调整方向上提供合理的建议。
答案2
我认为您在 CPU 峰值时运行 Hadoop 作业,如果是这样,资源消耗取决于作业的作业复杂性和定义的参数。我希望您也在那里运行 Yarn?Yarn 是资源密集型应用程序。请使用资源队列来调节资源消耗。