我们正在创建一个混搭网站,从网络上的众多来源获取信息。其中许多网站不提供 RSS 源或 API 来访问它们提供的信息。这让我们只能通过屏幕抓取来收集数据。
有许多用不同的脚本语言编写的用于屏幕抓取的脚本工具,这些脚本工具要求您使用抓取工具所用的语言编写抓取脚本。Scrapy、scrAPI 和 scrubyt 是用 Ruby 和 Python 编写的几个。
我还见过其他基于 Web 的工具,例如 Dapper,它可以根据网页创建 XML 或 RSS 源。它有一个漂亮的基于 Web 的界面,不需要任何脚本技能即可使用。如果它能够遍历多个页面以从数百页结果中收集数据,那么这将是一个很棒的工具。
我们需要一款能够从分页网站抓取信息的产品,就像 Scrubyt 一样,但需要非程序员也能使用的用户界面。如果需要,我们会编写自己的解决方案,可能使用 Scrubyt,但如果有更好的解决方案,我们会使用它。有类似产品吗?
答案1
雅虎管道想到,它对于非程序员来说很容易使用,但你真的应该学习正则表达式才能充分发挥它的潜力。
答案2
这篇维基百科文章包含大量有关该主题的信息,其中包括 15 个开源网络爬虫的列表:
答案3
Scrapinghub(来自 Scrapy 的创建者)为非程序员提供类似以下的付费服务:莫曾达。