![如何使用curl获取网站页面中使用图像的列表](https://linux22.com/image/107955/%E5%A6%82%E4%BD%95%E4%BD%BF%E7%94%A8curl%E8%8E%B7%E5%8F%96%E7%BD%91%E7%AB%99%E9%A1%B5%E9%9D%A2%E4%B8%AD%E4%BD%BF%E7%94%A8%E5%9B%BE%E5%83%8F%E7%9A%84%E5%88%97%E8%A1%A8.png)
如何获取网站页面的所有可用图像。
这里我使用curl获取网页的所有html代码:
curl http://www.xyztest.com
如何获取该网页中已使用图像的列表?
答案1
我可以用 来展示示例wget
。让我们尝试获取包含所有图像的列表,然后(如果需要)从以下位置下载所有图像这个网站
1)使用wget下载索引页
wget -k https://www.pexels.com/
k
选项(非常重要)用于将本地链接转换为全局链接。
2)现在我们将挖掘所需的信息。首先,过滤 throwgrep img
以仅获取带有<img>
标记的行。第二个 grep 使用正则表达式来获取链接地址。在字符sed
之后剪切链接中的参数?
。最后,将我们的链接保存到 links.txt
cat index.html | grep img | grep -Po 'src="\K.*?(?=")' | sed 's/\?.*//' > links.txt
3)现在我们可以轻松下载所有图像
wget -i links.txt
您可以使用一组管道下载并处理链接,curl
而是根据要求使用:
curl https://www.pexels.com/ | grep img | grep -o src="\"http.*" | grep -o "http.*\"" | sed 's/\?.*//' > links.txt