列出一个网站在另一个网站上的所有链接

列出一个网站在另一个网站上的所有链接

有两个网站。

1) www.aa.com
2) www.bb.com

现在 bb.com 上有很多 aa.com 及其网页的链接,例如

aa.com/blhahhaa.html
aa.com/beautifulday.html
aa.com

所以我想找出那个列表。

那么是否有可用的脚本或工具?知道如何开发这样的工具吗?

这是谷歌如何抓取所有网站但在这里我只想抓取一个网站。

答案1

如果你在 Linux 上运行我会使用 Bash 脚本阅读页面获得并解析它以查找链接,然后抓取这些链接。使用 Google 进行操作,那里有很多现成的脚本。

如果在 Windows 上我会使用你的任何首选语言卷曲扩展来获取页面内容,而不是wget。如果你阅读 wiki 页面,它的“另请参阅”页面甚至指向wget。深入研究它。

PS:你的这个问题似乎有点懒惰。

相关内容