使用 wget 下载所有音频文件(wikia 上超过 100,000 页)

使用 wget 下载所有音频文件(wikia 上超过 100,000 页)

我正在尝试下载 Wookiepedia(星球大战维基)中的所有音频文件。

我的第一个想法是这样的

wget -r -A  -nd .mp3 .ogg http://starwars.wikia.com/wiki/

这应该从 wiki 下载所有 .mp3 和 .ogg,同时防止创建目录。但是,当我在终端中运行它时,我得到:

重击:http://starwars.wikia.com/wiki/: 没有这样的文件或目录

问题是我无法使用 for 循环,因为每个 wiki 页面的 URL 都是唯一的。例如:

http://starwars.wikia.com/wiki/Retcon

http://starwars.wikia.com/wiki/C-3PX

http://starwars.wikia.com/wiki/Star_Wars_Legends

是否可以下载此结构中的 URL?

编辑:这是我使用答案得到的消息。

--2016-02-10 16:21:26-- http://starwars.wikia.com/wiki/ 正在解析 starwars.wikia.com (starwars.wikia.com)... 23.235.33.194, 23.235.37.194, 104.156.81.194, ... 正在连接到 starwars.wikia.com (starwars.wikia.com)|23.235.33.194| :80...已连接。 HTTP 请求已发送,正在等待响应... 301 永久移动位置:http://starwars.wikia.com/wiki/Main_Page[下一条]--2016-02-10 16:21:26-- http://starwars.wikia.com/wiki/Main_Page 重用与 starwars.wikia.com 的现有连接:80。 HTTP 请求已发送,等待响应... 200 OK 长度:569628 (556K) [text/html] 保存到:'index.html'

100%[========================>] 569,628 217KB/s 在 2.6 秒内

2016-02-10 16:21:29 (217 KB/s) - “index.html”已保存 [569628/569628]

删除index.html,因为它应该被拒绝。

已完成 --2016-02-10 16:21:29-- 总挂钟时间:2.7 秒 下载:1 个文件,2.6 秒内 556K (217 KB/s)

sl

没有给我任何信息,工作目录中没有文件。

答案1

我认为你的语法略有错误。尝试

wget -r -nd -A=mp3,ogg http://starwars.wikia.com/wiki/

相关内容