让 wget 下载不同域名上的页面资源

Question 1

wget --recursive --level=inf --page-requisites --convert-links --html-extension \
     --span-hosts=domainA,domainB url-on-domainA

更新：我记得上面的命令在过去对我有用（那是在 2010 年，我当时使用适用于 Windows 的 GNU 工具）；然而，当我最近再次尝试使用它时，我必须对其进行如下修改：

wget --recursive --level=inf --page-requisites --convert-links \
     --adjust-extension --span-hosts --domains=domainA,domainB domainA

它的简写版本为：wget -rEDpkH -l inf domainA,domainB domainA

Answer

wget --recursive --level=inf --page-requisites --convert-links --html-extension \
     --span-hosts=domainA,domainB url-on-domainA

更新：我记得上面的命令在过去对我有用（那是在 2010 年，我当时使用适用于 Windows 的 GNU 工具）；然而，当我最近再次尝试使用它时，我必须对其进行如下修改：

wget --recursive --level=inf --page-requisites --convert-links \
     --adjust-extension --span-hosts --domains=domainA,domainB domainA

它的简写版本为：wget -rEDpkH -l inf domainA,domainB domainA

Question 2

wget --recursive --level=inf --page-requisites --convert-links --html-extension -rH -DdomainA,domainB domainA

Answer

wget --recursive --level=inf --page-requisites --convert-links --html-extension -rH -DdomainA,domainB domainA

Question 3

wget --page-requisites --convert-links --adjust-extension --span-hosts --domains domainA,domainB domainA

您可能需要忽略 robots.txt（请注意，这可能违反某些服务条款，您应该下载最低要求）。请参阅https://www.gnu.org/software/wget/manual/wget.html#Robot-Exclusion。

Answer

wget --page-requisites --convert-links --adjust-extension --span-hosts --domains domainA,domainB domainA

您可能需要忽略 robots.txt（请注意，这可能违反某些服务条款，您应该下载最低要求）。请参阅https://www.gnu.org/software/wget/manual/wget.html#Robot-Exclusion。

Question 4

考虑使用HT轨道。它在抓取其他域上的内容时比 wget 有更多选项。使用 wget 和 --span-hosts、--domains 和 --accept 不足以满足我的需求，但 HTTrack 却能胜任。我记得设置其他域上的重定向限制很有帮助。

Answer

考虑使用HT轨道。它在抓取其他域上的内容时比 wget 有更多选项。使用 wget 和 --span-hosts、--domains 和 --accept 不足以满足我的需求，但 HTTrack 却能胜任。我记得设置其他域上的重定向限制很有帮助。

相关内容