在给定的时间间隔内从网页中提取信息

在给定的时间间隔内从网页中提取信息

我有一个问题。我需要提取大约 800 条记录,手动执行此操作需要几天时间。

可以通过在表单中​​插入几个字段(始终相同)然后插入给定间隔内的变量来获取信息。页面不会以纯文本形式传递参数,因此我不能只使用一个非常简单的工具来增加参数变量。

有什么好工具可以帮助我解决这个问题?

答案1

如果您不害怕编程,那么有一个很棒的 Sellenium 框架。简而言之,您可以自动化和模仿浏览器,并在页面上编程其行为。http://code.google.com/p/selenium/?redir=1

答案2

多布里登,

嘿,他们似乎有一些 SOAP 服务,可能您可以使用任何计算机语言的 xml rpc 库来访问数据。我找到了这个 wsdlhttps://katastr.cuzk.cz/static/wsdl/sestavy.wsdl但他们可能还有其他...

答案3

考虑使用 perl mechanize 或 ruby​​ mechanize 编写脚本。甚至 AutoHotKey(用于创建宏的程序)也可能会适合您。

相关内容