可以遍历页面的屏幕抓取软件

可以遍历页面的屏幕抓取软件

我们正在创建一个混搭网站,从网络上的众多来源获取信息。其中许多网站不提供 RSS 源或 API 来访问它们提供的信息。这让我们只能通过屏幕抓取来收集数据。

有许多用不同的脚本语言编写的用于屏幕抓取的脚本工具,这些脚本工具要求您使用抓取工具所用的语言编写抓取脚本。Scrapy、scrAPI 和 scrubyt 是用 Ruby 和 Python 编写的几个。

我还见过其他基于 Web 的工具,例如 Dapper,它可以根据网页创建 XML 或 RSS 源。它有一个漂亮的基于 Web 的界面,不需要任何脚本技能即可使用。如果它能够遍历多个页面以从数百页结果中收集数据,那么这将是一个很棒的工具。

我们需要一款能够从分页网站抓取信息的产品,就像 Scrubyt 一样,但需要非程序员也能使用的用户界面。如果需要,我们会编写自己的解决方案,可能使用 Scrubyt,但如果有更好的解决方案,我们会使用它。有类似产品吗?

答案1

雅虎管道想到,它对于非程序员来说很容易使用,但你真的应该学习正则表达式才能充分发挥它的潜力。

答案2

这篇维基百科文章包含大量有关该主题的信息,其中包括 15 个开源网络爬虫的列表:

网络爬虫

答案3

Scrapinghub(来自 Scrapy 的创建者)为非程序员提供类似以下的付费服务:莫曾达

答案4

我一直在使用从网站上抓取数据。没有编程经验的人也可以使用它,只要具备一些基本的编程技能,你就可以大大扩展它的功能。下面是教程

如果您需要执行某些操作来检索数据,iMacros 特别有用。它可以单击按钮、浏览闪存、从菜单中选择、填写表格等。

还有维基百科,需要编程技能。非程序员可以付费寻求帮助。

希望,数据追踪器即将推出。它的目标正是此类工作,但用户无需任何编程技能。

相关内容