- 我的文件中有 500 个网址。
- 我需要提取这些网址上出现的所有链接。
如何使用 Lynx 读取文件并提取文件中的链接?
下面的示例file.txt
,每行 1 个链接,总共 500 行
https://itunes.apple.com/
https://play.google.com/
... 等等
答案1
这是一个改进的脚本:
#!/bin/sh
cat file.txt |while read url
do
lynx -listonly -dump "$url"
done |
awk '/^[ ]*[1-9][0-9]*\./{sub("^ [^.]*.[ ]*","",$0); print;}'| \
sort -u
允许 lynx 识别的任何类型的 URL(例如包括 ftp)。该脚本对结果进行排序,消除重复项(lynx 本身不会这样做)。
进一步阅读:
答案2
调用 list.txt 你的列表:
for i in $(cat list.txt)
do
lynx -accept_all_cookies -dump $i |grep "http" |sed -e "s/^.*http/http/"
done
我建议将输出重定向到某个文件。