下载单个文件时,我们可以使用wget的-O
选项来指定文件名。当我使用(filelist.txt 包含我要下载的 URL 列表)下载文件中的 URL 时wget -i filelist.txt
,如何构造 filelist.txt 以便每个文件在下载时被重命名?
例如,如果filelist.txt包含以下内容:
--output-document=1.jpg http://images2.example.com/image1.jpg
--output-document=2.jpg http://images2.example.com/image2.jpg
是否可以下载image1.jpg
并另存为1.jpg
, image2.jpg
as 2.jpg
?
编辑
我知道我可以使用简单的脚本或文本操作技术来创建多个 wget 命令,每个命令都会下载一个 URL 并写入一个输出文件。我还没有测试过,但这对我来说似乎较慢,我想知道是否有任何方法可以使用单个 wget 进程下载所有文件。
答案1
您无法仅通过一次 Wget 调用来完成此操作。这源于 Wget-O
选项的定义,它不仅仅意味着保存的文件的名称,而是 stdout 的 shell 重定向。
如果服务器上所有文件的名称都不同,那么您仍然可以通过一次 Wget 调用下载所有文件,然后使用 shell 脚本重命名它们,从而相当快速地完成此操作。
你是对的,多次调用 wget 会很慢。进程启动和拆卸是一方面,但需要为每个文件与服务器建立新的 HTTP 连接,这可能会很快增加
答案2
只需逐行循环文件,将行内容读入变量FOO
并将其用作wget
参数:
while read FOO; do echo wget $FOO; done < filelist.txt
与下载时间相比,用参数构建命令行的这一点时间不会对您造成伤害。对于服务器端来说,这根本没有区别,如果相同或不同的wget
进程执行对文件的单个请求(在这两种情况下都完成),在我看来,保持活动的一点点关闭不会产生太大的区别。
顺便说一下:wget
始终是单线程的,没有参数使其成为多线程。也许你应该尝试一下,看看它到底慢了多少,wget
为每个 URL 启动一个新的进程,而不是使用-i
并希望它会更快,这样你就不必猜测它慢了多少,而只是看见。
您也可以启动多个wget
进程,类似于https://stackoverflow.com/questions/7577615/parallel-wget-in-bash/11850469#11850469(只需传递比那里更多的参数),对于小文件来说,这应该会加快一切速度。
如果您仍然需要构建目标文件名列表,您仍然可以在下载后重命名文件(这也不是您真正要求的方式)以实现您的目标。