开源爬虫

开源爬虫

我偶然发现了一个开源爬虫,它最近访问了我的网站。我想知道:1. 如何获取要爬取的网站列表?2. 你能获取你所在城市要爬取的网站列表吗?3. 如果你有所有这些信息,那么从哪里可以随时获取这些信息,有哪些 API 可以访问这些信息?

谢谢,沃尔特

答案1

要开始爬行,通常您需要向爬虫程序提供一个地址,然后让其运行。

如果您只想寻找“本地”结果,您可能需要巧妙地启动爬行过程,并使用已知的本地公司的 URL 作为种子,您可能需要以传统的方式找到这些公司:例如使用电话簿:)

答案2

我希望能有更多想法,了解有哪些其他信息可供我参考,然后利用这些信息做出明智的事情。我对此有一个大致的了解,当然,我总是可以使用 Hacking Exposed 来查找我最初没有想到的其他来源。

答案3

要查找本地网站,您可以使用那些使用地理坐标作为起点的网站。然后在索引没有地理坐标的网站时,您必须检查它们是否引用某些地址相关字符串(如区域邮政编码和城市名称)。

相关内容