如何使用 wget 抓取仅下载 HTML 文件（忽略图像、css、js）

Question 1

@ernie 的评论让--ignore-tags我走上正确的道路！当我抬头看--ignore-tags时man，我注意到了--follow-tags。

设置--follow-tags=a允许我跳过img、、等link。script

对于一些寻求相同答案的人来说，它可能太有限了，但对我来说它实际上效果很好（如果我错过几页也没关系）。

如果有人找到一种方法来允许扫描所有标签，但wget仅在下载文件后才阻止拒绝文件（他们应该在下载之前根据文件名或标题内容类型拒绝），我会非常乐意接受他们的回答！

Answer

@ernie 的评论让--ignore-tags我走上正确的道路！当我抬头看--ignore-tags时man，我注意到了--follow-tags。

设置--follow-tags=a允许我跳过img、、等link。script

对于一些寻求相同答案的人来说，它可能太有限了，但对我来说它实际上效果很好（如果我错过几页也没关系）。

如果有人找到一种方法来允许扫描所有标签，但wget仅在下载文件后才阻止拒绝文件（他们应该在下载之前根据文件名或标题内容类型拒绝），我会非常乐意接受他们的回答！

Question 2

那么添加选项怎么样：

--reject '*.js,*.css,*.ico,*.txt,*.gif,*.jpg,*.jpeg,*.png,*.mp3,*.pdf,*.tgz,*.flv,*.avi,*.mpeg,*.iso'
--ignore-tags=img,link,script 
--header="Accept: text/html"

Answer

那么添加选项怎么样：

--reject '*.js,*.css,*.ico,*.txt,*.gif,*.jpg,*.jpeg,*.png,*.mp3,*.pdf,*.tgz,*.flv,*.avi,*.mpeg,*.iso'
--ignore-tags=img,link,script 
--header="Accept: text/html"

如何使用 wget 抓取仅下载 HTML 文件（忽略图像、css、js）

答案1

答案2

相关内容