我正在尝试寻找一种工具,它可以向我展示我的 Hadoop 生态系统的概览 - 状态、健康状况、正在运行的任务等。我尝试使用 Google,但没有找到任何内容。有没有什么好用的工具?
答案1
正在运行的任务,mapred节点状态/健康状况:
http://example.com:50030/jobtracker.jsp
HDFS 健康和节点状态:
http://example.com:50070/dfshealth.jsp
将 example.com 替换为您的作业跟踪器/名称节点的 IP 或主机名。
如果这些端口不正确,请检查 mapred-site.xml 和 hdfs-site.xml 中定义的端口。
答案2
Cloudera 提供了一种专有工具,可以完成您所描述的功能,甚至更多Cloudera的经理。它不是 F/OSS,但它们确实有一个免费版本,可让您在有限数量的节点上运行。它旨在成为一款全生命周期产品,因此对于您的需求来说可能有点过头了。
坦白说:我自己从来没用过。我们公司也考虑过,但最后还是没用。
答案3
另一种选择是安巴里项目。它目前在 Apache 处于孵化状态,但我相信Hortonworks是其主要驱动因素之一。它主要是一个配置和监控框架。你可以看到例子Hortonworks 网站上。他们发表了一篇博客文章,描述了如何设置。
如果你正在寻找一个“更漂亮”的 jobtracker 或 namenode 界面,Cloudera有Hadoop 用户环境 (HUE),它提供了您正在寻找的一些功能。不过,它主要面向非管理员。