如何使用curl获取网站页面中使用图像的列表

如何使用curl获取网站页面中使用图像的列表

如何获取网站页面的所有可用图像。

这里我使用curl获取网页的所有html代码:

curl http://www.xyztest.com

如何获取该网页中已使用图像的列表?

答案1

我可以用 来展示示例wget。让我们尝试获取包含所有图像的列表,然后(如果需要)从以下位置下载所有图像这个网站

1)使用wget下载索引页

wget -k https://www.pexels.com/

k选项(非常重要)用于将本地链接转换为全局链接。

2)现在我们将挖掘所需的信息。首先,过滤 throwgrep img以仅获取带有<img>标记的行。第二个 grep 使用正则表达式来获取链接地址。在字符sed之后剪切链接中的参数?。最后,将我们的链接保存到 links.txt

cat index.html | grep img | grep -Po 'src="\K.*?(?=")' | sed 's/\?.*//' > links.txt

3)现在我们可以轻松下载所有图像

wget -i links.txt

您可以使用一组管道下载并处理链接,curl而是根据要求使用:

curl https://www.pexels.com/ | grep img | grep -o src="\"http.*" | grep -o "http.*\"" | sed 's/\?.*//' > links.txt

相关内容