wget 不会忽略 no-follow 属性

wget 不会忽略 no-follow 属性

我正在使用以下命令从网页下载所有文件:

wget --recursive "http://example.com"

这有时会导致以下错误:

no-follow attribute found in www.example.com. Will not follow any links on this page

根据gnu网站,我必须添加-e robots=off --wait 0.25到我的命令中。

我的最终命令如下所示(我不想要span-hosts):

wget --recursive -e robots=off --wait 0.5 "http://example.com"

但是我仍然收到上述错误。我该怎么做才能忽略这些属性?

答案1

正确的方法就在那里。你只需要尝试一下

wget -r -erobots=off "your_url"

答案2

该消息是一个错误,尽管显示消息“不会跟踪此页面上的任何链接”,但 wget 确实正在跟踪链接。

这已经固定在主分支,应该会在 wget 的下一版本中修复。

更多细节。

答案3

就我而言,我在 中遇到了语法错误--follow-tags。删除语法错误可使 wget 继续运行,尽管存在 no-follow 属性。

更多信息请见此处:https://unix.stackexchange.com/a/258850

相关内容