首先我想说的是,我对命令提示符还很陌生,我只将它用于一些 WGET 和 YOUTUBE-DL,而且我使用的是 Windows 8 PC。
我想从 html 文件中获取一组链接。这些链接都以
https://s-media-cache-ak0.pinimg.com/originals/
并结束于
.jpg
现在我正在使用这个:
findstr ^https://s-media-cache-ak0.pinimg.com/originals/.*\.jpg index.html > urls.txt
我做了一些研究,并且使用了 FINDSTR 的“范围”功能,如您所见。但我仍然得到了很多我不感兴趣的额外文本。有什么办法可以减少这些文本吗?
答案1
作为这个 StackOverflow 答案声明,你真的不应该尝试用正则表达式来解析 [X]HTML。查找字符串无论如何,正则表达式支持非常有限。
使用适当的 HTML 抓取工具/解析器,例如西代尔相反。以下命令将执行您要执行的操作:
xidel <URL or HTML file name> -q -e "//a/extract(@href/resolve-uri(.), 'https:\/\/s-media-cache-ak0\.pinimg\.com\/originals\/.*?\.jpg')[. != '']"