我有一个包含大约 7 台机器的 Hadoop 集群,有些机器一直处于宕机状态。有时,Hadoop 数据节点/作业跟踪器进程会停止运行(机器仍在运行),而其他时候,整个机器都会宕机。
我还没有真正调试过这样的情况,所以我想知道我应该从哪里开始 - 比如我应该查看的日志。/logs/
目录下的日志文件 - 类似的文件hadoop-dev-datanode-X.log
似乎没有任何有用的东西。此外,如果 Linux 机器出现故障,我应该在哪里查找错误消息?
我有一个包含大约 7 台机器的 Hadoop 集群,有些机器一直处于宕机状态。有时,Hadoop 数据节点/作业跟踪器进程会停止运行(机器仍在运行),而其他时候,整个机器都会宕机。
我还没有真正调试过这样的情况,所以我想知道我应该从哪里开始 - 比如我应该查看的日志。/logs/
目录下的日志文件 - 类似的文件hadoop-dev-datanode-X.log
似乎没有任何有用的东西。此外,如果 Linux 机器出现故障,我应该在哪里查找错误消息?