如何使用 wget 下载而不跟踪带参数的链接

Question 1

wget --reject-regex '(.*)\?(.*)' http://example.com

（默认情况下）。但根据其他评论，--reject-type posix仅适用于较新版本（>=1.14）。wget

请注意，似乎--reject-regex每次调用只能使用一次。也就是说，如果要在多个正则表达式中进行选择，则wget必须在单个正则表达式中使用：|

wget --reject-regex 'expr1|expr2|…' http://example.com

Answer

wget --reject-regex '(.*)\?(.*)' http://example.com

（默认情况下）。但根据其他评论，--reject-type posix仅适用于较新版本（>=1.14）。wget

请注意，似乎--reject-regex每次调用只能使用一次。也就是说，如果要在多个正则表达式中进行选择，则wget必须在单个正则表达式中使用：|

wget --reject-regex 'expr1|expr2|…' http://example.com

Question 2

这wget 的文档说：

还要注意，查询字符串（URL 末尾以问号（“？”）开头的字符串）不包含在接受/拒绝规则的文件名中，即使这些字符串实际上会影响为本地文件选择的名称。预计 Wget 的未来版本将提供一个允许匹配查询字符串的选项。

看起来像这个功能已经讨论一段时间了但什么也没做。

我没用过，但是追踪看起来它比 wget 具有更强大的过滤功能集，可能更适合您所寻找的内容（在此处阅读有关过滤器的信息http://www.httrack.com/html/fcguide.html）。

Answer

这wget 的文档说：

还要注意，查询字符串（URL 末尾以问号（“？”）开头的字符串）不包含在接受/拒绝规则的文件名中，即使这些字符串实际上会影响为本地文件选择的名称。预计 Wget 的未来版本将提供一个允许匹配查询字符串的选项。

看起来像这个功能已经讨论一段时间了但什么也没做。

我没用过，但是追踪看起来它比 wget 具有更强大的过滤功能集，可能更适合您所寻找的内容（在此处阅读有关过滤器的信息http://www.httrack.com/html/fcguide.html）。

Question 3

新版本的wget（v.1.14）解决了所有这些问题。

您必须使用新选项--reject-regex=....来处理查询字符串。

请注意，我找不到包含这些新选项的新手册，因此您必须使用帮助命令wget --help > help.txt

Answer

新版本的wget（v.1.14）解决了所有这些问题。

您必须使用新选项--reject-regex=....来处理查询字符串。

请注意，我找不到包含这些新选项的新手册，因此您必须使用帮助命令wget --help > help.txt

Question 4

看起来你正在尝试避免下载 MediaWiki 的特殊页面。我通过避免下载以下页面解决了这个问题index.php：

wget  -R '*index.php*'  -r ... <wiki link>

但是，该 wiki 使用的 URL 与 Wikipedia 中看到的一样 ( http://<wiki>/en/Theme)，而不是我在其他地方看到的模式 ( http://<wiki>/index.php?title=Theme)。由于你提供的链接使用 Wikipedia 模式中的 URL，但我认为这个解决方案也适合您。

Answer

看起来你正在尝试避免下载 MediaWiki 的特殊页面。我通过避免下载以下页面解决了这个问题index.php：

wget  -R '*index.php*'  -r ... <wiki link>

但是，该 wiki 使用的 URL 与 Wikipedia 中看到的一样 ( http://<wiki>/en/Theme)，而不是我在其他地方看到的模式 ( http://<wiki>/index.php?title=Theme)。由于你提供的链接使用 Wikipedia 模式中的 URL，但我认为这个解决方案也适合您。

如何使用 wget 下载而不跟踪带参数的链接

答案1

答案2

答案3

答案4

相关内容