如何在适当的时间内从给定的网址中提取所有链接

如何在适当的时间内从给定的网址中提取所有链接

我正在尝试从指定的网址中提取链接并将其重定向到文件。

起初我尝试使用--spider,这是我的代码:

wget --spider --force-html -m http://file/path 2>&1 | grep '^--' | awk '{ print $3 }'| grep -v '\.\(css\|js\|png\|gif\|jpg\|ico\|txt\)$'| sort | uniq > links.txt

如果我传递一个没有太多网页的网址,它会很好地工作,但是如果网址更复杂,它会卡住一些非常好的时间。

我做了一些研究,我尝试找到一种方法,在使用 杀死进程本身之前以某种方式打印处理后的输出timeout -s KILL 30,但找不到任何方法。

所以我问你,有没有办法在合适的时间内获得链接?或者至少打印中断过程之前得到的输出?

谢谢。

答案1

看一下tee第二个问题的命令:

https://en.m.wikipedia.org/wiki/Tee_(Unix)

它可以同时将命令输出“拆分”到文件和控制台。

相关内容