我想(递归地)获取给定网页上所有链接的列表。除了使用 wget -r 之外,我似乎找不到如何做到这一点的方法。我不想保存所有垃圾,只想保存链接。有什么想法吗?
答案1
我使用此命令仅获取 YouTube 视频(https://www.youtube.com/watch?v=XXXXXXXXX)
wget --spider --force-html -r -l2 "https://www.youtube.com" 2>&1 | grep --color 'watch?v='
您可以使用它并像这样更改 grep 选项:对于我的示例,如果您想跳过 YouTube 视频,请使用“grep -v”:
wget --spider --force-html -r -l2 "https://www.youtube.com" 2>&1 | grep -v 'watch?v='