如何获取网站页面的所有可用图像。
这里我使用curl获取网页的所有html代码:
curl http://www.xyztest.com
如何获取该网页中已使用图像的列表?
答案1
我可以用 来展示示例wget
。让我们尝试获取包含所有图像的列表,然后(如果需要)从以下位置下载所有图像这个网站
1)使用wget下载索引页
wget -k https://www.pexels.com/
k
选项(非常重要)用于将本地链接转换为全局链接。
2)现在我们将挖掘所需的信息。首先,过滤 throwgrep img
以仅获取带有<img>
标记的行。第二个 grep 使用正则表达式来获取链接地址。在字符sed
之后剪切链接中的参数?
。最后,将我们的链接保存到 links.txt
cat index.html | grep img | grep -Po 'src="\K.*?(?=")' | sed 's/\?.*//' > links.txt
3)现在我们可以轻松下载所有图像
wget -i links.txt
您可以使用一组管道下载并处理链接,curl
而是根据要求使用:
curl https://www.pexels.com/ | grep img | grep -o src="\"http.*" | grep -o "http.*\"" | sed 's/\?.*//' > links.txt