Hadoop - /usr/sbin/shell 脚本的用途是什么?

Hadoop - /usr/sbin/shell 脚本的用途是什么?

我正在 CentOS 6.4 上安装 Hadoop 1.1.2。

我阅读了所有 Hadoop 文档http://hadoop.apache.org/docs/stable/

安装后,我注意到 /usr/sbin/ 下有很多 shell 脚本。但文档并未解释其中大部分的作用。

例如:

hadoop-create-user.sh
hadoop-setup-conf.sh
hadoop-setup-hdfs.sh
hadoop-setup-single-node.sh
hadoop-validate-setup.sh
slaves.sh
start-balancer.sh
start-jobhistoryserver.sh
stop-balancer.sh
stop-jobhistoryserver.sh
update-hadoop-env.sh

是否有一些补充文档可以解释这些脚本?

答案1

hadoop-创建用户.sh在 /user 路径下的 HDFS 中设置命名用户的主目录。

hadoop-安装-conf.sh用于在新集群​​上引导集群配置。

Hadoop-安装-hdfs.sh用于格式化 HDFS 结构并在 HDFS 内部创建标准目录树。这是一个破坏性的工具,可能会导致现有集群发生不良情况,例如数据丢失。

hadoop-设置-单节点.sh用于设置单节点部署,通常称为伪分布式集群。这会导致所有必要的守护进程在一个系统下运行。

hadoop-验证-setup.sh运行teragen、terasort 和 teravalidate作为对集群进行烟雾测试并确保其正常运行的一种方式。这是一个基本的基准。

奴隶.sh允许您在集群中的所有从属节点(基本上是数据节点)上运行命令。

启动balancer.sh运行Hadoop 均衡器,这会导致 namenode 在数据节点上重新排列块,以确保所有数据节点使用的磁盘空间(大致)相等。这是一项应定期运行的日常管理任务。

启动作业历史服务器.sh是启动jobhistory服务器的工具,它提供有关在集群的mapreduce端运行的作业的信息。

停止平衡器和stop-jobhistoryserver.sh是上面两个命令的相反命令。

更新 Hadoop 环境更新hadoop-env.sh脚本,用于设置集群中所有hadoop工具和守护进程所需的通用环境变量。

对于其中的一些内容,文档并不多。你只需要仔细研究脚本,就能知道它们到底在做什么。

相关内容