批量-从 html 文档中获取文件的 url

Question 1

以下命令将在 .htm 文件中查找包含下载链接的行，并使用一种快速而粗略的方法从该行中提取 URL。这种方法不是很可靠，但只要“如果您的下载未开始，请单击此处”行使用的 html 没有发生重大变化，它应该可以工作。

for /F "tokens=4 delims==" %i in ('findstr download-link source.htm') do 
    @set match=%i
set zipurl=%match:~1,-7%
echo %zipurl%|findstr /R ^http://.*\.zip$

属性 'class="download-link"' 公开了链接到 .zip 文件的标签。使用等号作为分隔符，第四个标记将是"http://addons.[...].zip" class。为了摆脱周围的引号和单词 'class'，的子字符串%match%存储在中%zipurl%。第三行是可选的，但可用于检查脚本是否仍然有效。%errorlevel%如果提取的 URL 以 'http://' 开头并以 '.zip' 结尾，则 Findstr 设置为零，否则将其设置为一。

若要在批处理文件中使用，请替换%i为%%i。

Answer

以下命令将在 .htm 文件中查找包含下载链接的行，并使用一种快速而粗略的方法从该行中提取 URL。这种方法不是很可靠，但只要“如果您的下载未开始，请单击此处”行使用的 html 没有发生重大变化，它应该可以工作。

for /F "tokens=4 delims==" %i in ('findstr download-link source.htm') do 
    @set match=%i
set zipurl=%match:~1,-7%
echo %zipurl%|findstr /R ^http://.*\.zip$

属性 'class="download-link"' 公开了链接到 .zip 文件的标签。使用等号作为分隔符，第四个标记将是"http://addons.[...].zip" class。为了摆脱周围的引号和单词 'class'，的子字符串%match%存储在中%zipurl%。第三行是可选的，但可用于检查脚本是否仍然有效。%errorlevel%如果提取的 URL 以 'http://' 开头并以 '.zip' 结尾，则 Findstr 设置为零，否则将其设置为一。

若要在批处理文件中使用，请替换%i为%%i。

Question 2

...但是，我不知道如何删除不包含特定字符串的行...

删除以下行不要包含特定字符串，请参阅此帖子正则表达式匹配不包含单词的字符串

帖子中有更多信息，并提供了各种其他答案，但这个答案的基础是：

你可以使用sed和grep（或者sed和find）来过滤文件的行。

搜索/替换整个文件，在包含以下内容的每一行开头添加唯一的“标签”任何文本。
对于包含目标字符串，从行首删除唯一的“标签”。
此时，所有以唯一“Tag”开头的行，不要包含目标字符串。现在您可以delete（或者只对这些行执行“其他操作”）。

Answer