Lynx 从文件中读取 url 并下载链接

Lynx 从文件中读取 url 并下载链接
  1. 我的文件中有 500 个网址。
  2. 我需要提取这些网址上出现的所有链接。

如何使用 Lynx 读取文件并提取文件中的链接?

下面的示例file.txt,每行 1 个链接,总共 500 行

https://itunes.apple.com/
https://play.google.com/

... 等等

答案1

这是一个改进的脚本:

#!/bin/sh
cat file.txt |while read url
do
    lynx -listonly -dump "$url"
done |
awk '/^[ ]*[1-9][0-9]*\./{sub("^ [^.]*.[ ]*","",$0); print;}'| \
sort -u

允许 lynx 识别的任何类型的 URL(例如包括 ftp)。该脚本对结果进行排序,消除重复项(lynx 本身不会这样做)。

进一步阅读:

答案2

调用 list.txt 你的列表:

for i in $(cat list.txt) 
do 
  lynx -accept_all_cookies -dump $i |grep "http" |sed -e "s/^.*http/http/"
done

我建议将输出重定向到某个文件。

相关内容