我正在 CentOS 6.4 上安装 Hadoop 1.1.2。
我阅读了所有 Hadoop 文档http://hadoop.apache.org/docs/stable/
安装后,我注意到 /usr/sbin/ 下有很多 shell 脚本。但文档并未解释其中大部分的作用。
例如:
hadoop-create-user.sh
hadoop-setup-conf.sh
hadoop-setup-hdfs.sh
hadoop-setup-single-node.sh
hadoop-validate-setup.sh
slaves.sh
start-balancer.sh
start-jobhistoryserver.sh
stop-balancer.sh
stop-jobhistoryserver.sh
update-hadoop-env.sh
是否有一些补充文档可以解释这些脚本?
答案1
hadoop-创建用户.sh在 /user 路径下的 HDFS 中设置命名用户的主目录。
hadoop-安装-conf.sh用于在新集群上引导集群配置。
Hadoop-安装-hdfs.sh用于格式化 HDFS 结构并在 HDFS 内部创建标准目录树。这是一个破坏性的工具,可能会导致现有集群发生不良情况,例如数据丢失。
hadoop-设置-单节点.sh用于设置单节点部署,通常称为伪分布式集群。这会导致所有必要的守护进程在一个系统下运行。
hadoop-验证-setup.sh运行teragen、terasort 和 teravalidate作为对集群进行烟雾测试并确保其正常运行的一种方式。这是一个基本的基准。
奴隶.sh允许您在集群中的所有从属节点(基本上是数据节点)上运行命令。
启动balancer.sh运行Hadoop 均衡器,这会导致 namenode 在数据节点上重新排列块,以确保所有数据节点使用的磁盘空间(大致)相等。这是一项应定期运行的日常管理任务。
启动作业历史服务器.sh是启动jobhistory服务器的工具,它提供有关在集群的mapreduce端运行的作业的信息。
停止平衡器和stop-jobhistoryserver.sh是上面两个命令的相反命令。
更新 Hadoop 环境更新hadoop-env.sh脚本,用于设置集群中所有hadoop工具和守护进程所需的通用环境变量。
对于其中的一些内容,文档并不多。你只需要仔细研究脚本,就能知道它们到底在做什么。