Apache Nutch 在抓取周期中无限期地挂起在 URL 上

Apache Nutch 在抓取周期中无限期地挂起在 URL 上

我正在分布式 Hadoop 模式下运行 Nutch 1.15,当它尝试获取文件(185 MB)时,它会因线程中止而挂起。然后,在下一个获取数据的周期中,它会尝试再次获取相同的文件,然后线程挂起并中止。Nutch 不会跳过这个 URL,而是在下一个获取周期中反复尝试获取相同的文件。有没有办法让 Nutch 跳过这个 URL?谢谢!

相关内容