我在这里关注答案https://webapps.stackexchange.com/questions/12311/how-to-download-all-english-books-from-gutenberg哪些正在使用wget
我想wget
从特定的起始偏移量下载http://www.gutenberg.org/robot/harvest?offset=100000filetypes[]=txt
。因为我已经下载了以前的文件,但它从第一页开始。
我怎样才能避免这种情况?
答案1
我认为您的问题出在网址的这一部分:
?offset=100000filetypes[]=txt
这是一个查询字符串,其中包含两个字段(offset
和filetypes[]
)。
查询字符串中的名称-值字段对应使用 & 符号分隔。试试这样:
?offset=100000&filetypes[]=txt
如果不&
分隔字段,您将告诉服务器您想要“100000filetypes[]=txt”的偏移量。然后,服务器将其视为无效参数而拒绝,并为您提供默认值 0。