我正在尝试使用以下命令从 archive.org 中的页面下载所有 zip 文件wget
:
wget -r -np -nc -l 1 -A zip https://archive.org/download/mame-merged/mame-merged/
我找到了这个命令中的前一个命令stackoverflow 答案。
如果已经使用参数下载了 zip 文件,则我不想下载它-nc
。
但是当wget
下载文件时100lions.zip
,我看到它下载了 5.2M,但我找不到该文件。我只找到了一个空的名为 100lions.zip 的文件夹。
这是下载该文件时的 wget 输出:
--2022-01-30 09:01:07-- https://archive.org/download/mame-merged/mame-merged/100lions.zip
Connecting to archive.org (archive.org)|207.241.224.2|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://ia801502.us.archive.org/13/items/mame-merged/mame-merged/100lions.zip [following]
--2022-01-30 09:01:08-- https://ia801502.us.archive.org/13/items/mame-merged/mame-merged/100lions.zip
Connecting to ia801502.us.archive.org (ia801502.us.archive.org)|207.241.228.152|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 5405543 (5,2M) [application/zip]
Saving to: 'archive.org/download/mame-merged/mame-merged/100lions.zip'
archive.org/download/mame-mer 100%[=================================================>] 5,15M 268KB/s in 29s
2022-01-30 09:01:38 (184 KB/s) - 'archive.org/download/mame-merged/mame-merged/100lions.zip' saved [5405543/5405543]
--2022-01-30 09:01:38-- https://archive.org/download/mame-merged/mame-merged/100lions.zip/
我认为问题在于该网页上每个名为 的 zip 文件都有一个链接,View Contents
该链接指向与 zip 文件同名的文件夹。例如,对于 ,100lions.zip
有一个链接View Contents
指向文件夹100lions.zip
。
我看到 wget 首先下载 zip 文件,然后删除它并创建一个同名的空文件夹。
这是 zip 和文件夹链接的源代码:
<td><a href="10yard.zip">10yard.zip</a> (<a href="10yard.zip/">View Contents</a>)</td>
我想下载第一个a href
,而不是第二个。
有什么方法可以避免下载空文件夹?