使用 wget 从网页下载内容

使用 wget 从网页下载内容

我想使用 wget 下载 gutenberg 项目中的所有书籍。我想以 epub 格式获取它们。列表的链接是: http://www.gutenberg.org/robot/harvest?filetypes[]=epub.images&langs[]=fr 但是当我跑步时:

  wget -H -w 2 -m "http://www.gutenberg.org/robot/harvest?filetypes[]=epub.images&langs[]=fr"

它下载 html 页面,而不是页面中链接的所有文件。希望这足够清楚。灵感来自于这个问题:https://webapps.stackexchange.com/questions/12311/how-to-download-all-english-books-from-gutenberg

答案1

你做的一切都是对的。古腾堡的服务器坏了(我希望是暂时的)。

发生的情况是:您正在获取的页面链接到 aleph.gutenberg.org/cache/ 下的 EPUB 文件,但 aleph.gutenberg.org 不允许机器人访问 /cache。这就是 Wget 跳过所有 EPUB 文件的原因。

我给古腾堡计划写了一封电子邮件,希望他们能尽快解决这个问题——他们的联系页面承诺在两天内给出答案。请过几天再试一次。 (或者找到一种方法来解决 robots.txt。我不想在这里发布它,因为大多数时候人们滥用它来做坏事。)

11月29日更新:问题已修复。

相关内容