如何从任何文件中选择并输出 URL 地址?

如何从任何文件中选择并输出 URL 地址?

我想知道什么命令会:

  1. 选择文件中的所有 URL(即识别从头到尾以 http 或 www 开头的所有地址,并将它们与文本或其他数据分开)

  2. 将它们输出到 .txt 文件中。

接下来的想法是对 .txt 文件执行 wget -i。我需要在 .txt 文件中正确选择和输出这些 URL,因为 wget 很难直接识别原始文件中的所有 URL。

答案1

我按照中的说明进行操作如何使用 grep 并插入脚本从 HTML 文件中获取网站 URL在我的例子中它工作得很好,因为 URL 位于输入文件中的 < href > 之间:

grep -Po '(?<=href=")[^"]*(?=")' INPUT_FILE > OUTPUT_FILE.txt

相关内容