Apache Nutch 在抓取周期中无限期地挂起在 URL 上

2024-6-19 • tag-icon

我正在分布式 Hadoop 模式下运行 Nutch 1.15，当它尝试获取文件（185 MB）时，它会因线程中止而挂起。然后，在下一个获取数据的周期中，它会尝试再次获取相同的文件，然后线程挂起并中止。Nutch 不会跳过这个 URL，而是在下一个获取周期中反复尝试获取相同的文件。有没有办法让 Nutch 跳过这个 URL？谢谢！

相关内容