wget -I='/my/subpath,/my/subpath/*' (/my/subpath/) 被排除/不包括。决定不加载它

2024-6-20 • tag-icon

wget -I='/my/subpath,/my/subpath/*' (/my/subpath/) 被排除/不包括。决定不加载它

我正在尝试索引一些与文档相对应的页面。

为此我想

wget --no-parent -r -l 5 https://developer.mozilla.org/en-US/docs/Web/JavaScript/

但由于请求将被重定向到https://developer.mozilla.org/en-US/docs/Web/JavaScript前一个 URL 的父级，因此它不会被下载。

所以我必须使用 -I 来解决这个问题。据我所知

wget \
`## Basic Startup Options` \
  --execute robots=off \
`## Loggin and Input File Options` \
  --output-file=$HOME/wget-last.log \
  --debug \
`## Download Options` \
`## Directory Options` \
`## HTTP Options` \
  --adjust-extension \
`## HTTPS Options` \
  --no-check-certificate \
`## Recursive Retrieval Options` \
  --recursive --level=5 \
`## Recursive Accept/Reject Options` \
  -I=/en-US/docs/Web/JavaScript,/en-US/docs/Web/JavaScript/* \
  https://developer.mozilla.org/en-US/docs/Web/JavaScript

这已经完成了以前网站上的工作。但现在看起来像是卡在了这样的标签上

<a href="/en-US/docs/Web/JavaScript/Tutorials"><strong>Tutorials</strong></a>

显示以下调试消息

Deciding whether to enqueue "https://developer.mozilla.org/en-US/docs/Web/JavaScript/Tutorials".
https://developer.mozilla.org/en-US/docs/Web/JavaScript/Tutorials (en-US/docs/Web/JavaScript) is excluded/not-included.
Decided NOT to load it.

其余应该下载的文件也是如此

相关内容