使用 FindStr 从 HTML 文件获取 URL

使用 FindStr 从 HTML 文件获取 URL

首先我想说的是,我对命令提示符还很陌生,我只将它用于一些 WGET 和 YOUTUBE-DL,而且我使用的是 Windows 8 PC。

我想从 html 文件中获取一组链接。这些链接都以

https://s-media-cache-ak0.pinimg.com/originals/

并结束于

.jpg

现在我正在使用这个:

findstr ^https://s-media-cache-ak0.pinimg.com/originals/.*\.jpg index.html > urls.txt

我做了一些研究,并且使用了 FINDSTR 的“范围”功能,如您所见。但我仍然得到了很多我不感兴趣的额外文本。有什么办法可以减少这些文本吗?

答案1

作为这个 StackOverflow 答案声明,你真的不应该尝试用正则表达式来解析 [X]HTML。查找字符串无论如何,正则表达式支持非常有限。

使用适当的 HTML 抓取工具/解析器,例如西代尔相反。以下命令将执行您要执行的操作:

xidel <URL or HTML file name> -q -e "//a/extract(@href/resolve-uri(.), 'https:\/\/s-media-cache-ak0\.pinimg\.com\/originals\/.*?\.jpg')[. != '']"

相关内容