我正在尝试索引一些与文档相对应的页面。
为此我想
wget --no-parent -r -l 5 https://developer.mozilla.org/en-US/docs/Web/JavaScript/
但由于请求将被重定向到https://developer.mozilla.org/en-US/docs/Web/JavaScript
前一个 URL 的父级,因此它不会被下载。
所以我必须使用 -I 来解决这个问题。据我所知
wget \
`## Basic Startup Options` \
--execute robots=off \
`## Loggin and Input File Options` \
--output-file=$HOME/wget-last.log \
--debug \
`## Download Options` \
`## Directory Options` \
`## HTTP Options` \
--adjust-extension \
`## HTTPS Options` \
--no-check-certificate \
`## Recursive Retrieval Options` \
--recursive --level=5 \
`## Recursive Accept/Reject Options` \
-I=/en-US/docs/Web/JavaScript,/en-US/docs/Web/JavaScript/* \
https://developer.mozilla.org/en-US/docs/Web/JavaScript
这已经完成了以前网站上的工作。但现在看起来像是卡在了这样的标签上
<a href="/en-US/docs/Web/JavaScript/Tutorials"><strong>Tutorials</strong></a>
显示以下调试消息
Deciding whether to enqueue "https://developer.mozilla.org/en-US/docs/Web/JavaScript/Tutorials".
https://developer.mozilla.org/en-US/docs/Web/JavaScript/Tutorials (en-US/docs/Web/JavaScript) is excluded/not-included.
Decided NOT to load it.
其余应该下载的文件也是如此