我只想从具有特定路径的文档中抓取图像;例如:
example.com/uploads/287167/file_name.jpg
并且只抓取带有上传/编号/文件名的内容。
我目前正在这样做:
wget http://example.com/news/36843 -q -O - | sed -n -e"s%^.*\(http://example.com/uploads/[0-9][^ \"\']*\.jpg\).*$%\1%p" | xargs wget -q
还有其他方法可以做到这一点吗?
答案1
这样做会更容易一些:
wget http://example.com/news/36843 -q -O - \
| grep -Eo 'http://example.com/uploads/[0-9]+/[^"]+\.jpg' \
| wget -i -
对于-A
,您可以过滤 jpg 文件。要过滤您需要的路径-I
。但它仅在递归模式下工作,因此它可能会下载比您想要的更多的内容:
wget http://example.com/news/36843 -r --level 1 -A jpg -I "/uploads/[0-9]*"
未经测试。