使用 wget 排除一些 php 页面但不排除其他页面?

使用 wget 排除一些 php 页面但不排除其他页面?

我想使用wget递归下载网站。该网站包含由 php 脚本提供的文章,例如。 www.example.com/article.php?id=1021&ch=5 - 这些是我想要的,所有章节都是单独的文章。

不幸的是,该网站还包含评论——大量的评论。评论也由 php 脚本提供,例如。 www.example.com/comment.php?id=1021&no=144 - 这些我绝对想。

基本上,我什么都想要除了的评论。问题在于,文章、章节和评论的链接散布在文章和章节列表中,因此无法“微调”递归级别来避免它们......并且对级别进行级别并手动排序 -两者之间,会花费太多的时间和精力。

由于两者都是 php 脚本,因此使用 wget 的 -A 或 -R 选项来接受或拒绝具有特定后缀的文件将不起作用 - 是吗?递归下载时是否有其他更精确的方法来排除一个 php 脚本而不是其他脚本?

答案1

以下内容将提供一些关于您正在寻找的内容的见解:http://www.gnu.org/software/wget/manual/html_node/Directory_002dBased-Limits.html

您应该能够使用--exclude /comment.php排除页面的所有变体comment.php

相关内容