具有偏移量的镜像站点

具有偏移量的镜像站点

我在这里关注答案https://webapps.stackexchange.com/questions/12311/how-to-download-all-english-books-from-gutenberg哪些正在使用wget

我想wget从特定的起始偏移量下载http://www.gutenberg.org/robot/harvest?offset=100000filetypes[]=txt。因为我已经下载了以前的文件,但它从第一页开始。

我怎样才能避免这种情况?

答案1

我认为您的问题出在网址的这一部分:

?offset=100000filetypes[]=txt

这是一个查询字符串,其中包含两个字段(offsetfiletypes[])。

查询字符串中的名称-值字段对应使用 & 符号分隔。试试这样:

?offset=100000&filetypes[]=txt

如果不&分隔字段,您将告诉服务器您想要“100000filetypes[]=txt”的偏移量。然后,服务器将其视为无效参数而拒绝,并为您提供默认值 0。

相关内容