我想知道什么命令会:
选择文件中的所有 URL(即识别从头到尾以 http 或 www 开头的所有地址,并将它们与文本或其他数据分开)
将它们输出到 .txt 文件中。
接下来的想法是对 .txt 文件执行 wget -i。我需要在 .txt 文件中正确选择和输出这些 URL,因为 wget 很难直接识别原始文件中的所有 URL。
答案1
我按照中的说明进行操作如何使用 grep 并插入脚本从 HTML 文件中获取网站 URL在我的例子中它工作得很好,因为 URL 位于输入文件中的 < href > 之间:
grep -Po '(?<=href=")[^"]*(?=")' INPUT_FILE > OUTPUT_FILE.txt