我想要了解当 Hadoop 服务器的一个磁盘出现故障时您的应对策略。
假设我有多个(>15)Hadoop 服务器和 1 个 namenode,从属服务器上的 6 个磁盘中有一个停止工作,磁盘通过 SAS 连接。我不关心从该磁盘检索数据,而是关心保持集群运行的一般策略。
你做什么工作?
答案1
我们部署了 Hadoop。您可以指定文件的复制数量。文件被复制的次数。Hadoop 在名称节点上有一个单点故障。如果您担心磁盘出故障,请将复制数增加到 3 或更多。
那么如果磁盘坏了,就很简单了。扔掉它并重新格式化。Hadoop 会自动调整。事实上,一旦磁盘坏了,它就会开始重新平衡文件以维持复制数量。
我不确定你为什么有这么大的赏金。你说你不在乎检索数据。Hadoop 在名称节点上只有一个单点故障。所有其他节点都是可消耗的。
答案2
您提到此系统是继承的(可能不是最新的),并且负载急剧上升,表明可能存在无限循环。此错误报告描述了您的情况吗?
https://issues.apache.org/jira/browse/HDFS-466
如果是这样,据报道已在最新的 HDFS 0.21.0(上周刚刚发布)中修复:
http://hadoop.apache.org/hdfs/docs/current/releasenotes.html
免责声明:令我失望的是,我还没有使用 Hadoop/HDFS 的必要:)