wget 因黑名单而决定不加载

2024-6-19 • tag-icon

我正在尝试复制一个网站的完整内容；例如，

http://vfilesarchive.bgmod.com/files/

我在跑

wget -r -level=inf -R "index.html*" --debug http://vfilesarchive.bgmod.com/files/

例如

Deciding whether to enqueue "http://vfilesarchive.bgmod.com/files/Half-Life%D0%92%D0%86/".
Already on the black list.
Decided NOT to load it.

发生了什么事？wget“黑名单”是什么意思？为什么只下载部分内容？我应该怎么做才能下载整个网站？

wget 的版本是

GNU Wget 1.20 built on mingw32

（在 Windows 10 x64 上运行）。

PS我想我已经设法解决了这个问题

wget -m --restrict-file-names=nocontrol --no-iri -R "index.html*" <target url>

尽管文件名由于 URL 中的特殊字符而略有缺陷。有没有更好的解决方案？

我想我已经设法解决了这个问题

wget -m --restrict-file-names=nocontrol --no-iri -R "index.html*" <target url>

尽管由于 URL 中的特殊字符导致文件名略有缺陷。

相关内容