从没有特殊页面的 wiki 中批量下载页面

Question 1

来自 wget 手册页：

-R rejlist --拒绝 rejlist

指定要接受或拒绝的文件名后缀或模式的逗号分隔列表。请注意，如果任何通配符 *、?、[ 或 ] 出现在 acclist 或 rejlist 的元素中，它将被视为模式，而不是后缀。

这看起来正是您所需要的。

注意：为了减少 wiki 服务器的负载，您可能需要查看 -w 和 --random-wait 标志。

Answer

来自 wget 手册页：

-R rejlist --拒绝 rejlist

指定要接受或拒绝的文件名后缀或模式的逗号分隔列表。请注意，如果任何通配符 *、?、[ 或 ] 出现在 acclist 或 rejlist 的元素中，它将被视为模式，而不是后缀。

这看起来正是您所需要的。

注意：为了减少 wiki 服务器的负载，您可能需要查看 -w 和 --random-wait 标志。

Question 2

他们中的大多数人对此表示不满，维基百科会主动使用 robots.txt 关闭它们。我会坚持http://en.wikipedia.org/wiki/Special:Export

Answer

他们中的大多数人对此表示不满，维基百科会主动使用 robots.txt 关闭它们。我会坚持http://en.wikipedia.org/wiki/Special:Export

相关内容