是否有 Wget 命令允许我下载包含以下 url 的所有 jpeg:
http://www.sample.com/images/imag/
因此,该特定 url 下的所有 jpeg 都将被下载,如下所示:
- http://www.sample.com/images/imag/%281665%29-253.jpg
- http://www.sample.com/images/imag/(2816)-2234.jpg
- http://www.sample.com/images/imag/32r4344sdfa.jpg
- http://www.sample.com/images/imag/dwedjpao.jpg
不管 jpeg 是否有不同的命名约定。
答案1
wget -r -A jpg,jpeg http://www.sample.com/images/imag/
这将创建整个目录树。如果您不需要目录树,请使用:
wget -r -A jpg,jpeg -nd http://www.sample.com/images/imag
或者,连接到sample.com
(例如通过 ssh)并找到/images/imag
文件夹ls *.jp* > foo.txt
, wget -i -F foo.txt -B http://www.sample.com/images/imag/foo.jpg
。
答案2
取决于你如何“得到”http://www.sample.com/images/imag/图像列表。
如果该页面包含 HTML 文档中的图像,您可以尝试如下操作:
wget -nd -p -A jpg,jpeg -e robots=off http://...
在哪里:
-nd
: 没有目录。--no-directories
-p
:包含图像(页面要求)--page-requisites
-A
:以逗号分隔的要接受的文件名后缀或模式列表。--accept
-e
:执行命令,就像执行命令的一部分一样.wgetrc。--execute
- 这里;机器人=关闭
有些服务器只提供压缩的 HTML,即 gzip。然后你必须采取一些额外的措施,因为 wget 不会解压和解析这些(AFAIK)。一个相当快速且无痛的解决方案是使用隐私。
安装后wget
通过以下方式使用代理:
export http_proxy="http://localhost:8118"
然后再次运行命令。