使用什么脚本语言或平台进行网页下载和屏幕交互？

Question 1

好吧，在收到 scrapy 的链接后我做了一些研究，并意识到我正在谈论一个网络爬虫。对于其他可能关心的人，这里是我收集的一些信息。

仍然不确定如何前进，但听起来 BeautifulSoup 和 Mechanize 可能是最简单的前进方式。斜纹布由于其简单性也看起来相当不错。有什么想法吗？

我的研究链接的汇编

python 网页抓取工具概述的演示 http://www.slideshare.net/maikroeder/overview-of-python-web-scraping-tools

机械化 http://wwwsearch.sourceforge.net/mechanize/

美丽汤：我们叫他乌龟，因为他教我们。 http://www.crummy.com/software/BeautifulSoup/

twill：一种用于网页浏览的简单脚本语言 http://twill.idyll.org/

Selenium - Web 浏览器自动化 http://seleniumhq.org/

PhantomJS：带有 JavaScript API 的 Headless WebKit http://phantomjs.org/

机械化是我的最爱；强大的高级浏览功能（超级简单的表单填写和提交）。

Twill 是一种构建在 Mechanize 之上的简单脚本语言

BeautifulSoup + urllib2 也工作得很好。

Scrapy 看起来是一个非常有前途的项目；这是新的。

有人知道我可以使用一个基于 Python 的网络爬虫吗？ - 堆栈溢出 https://stackoverflow.com/questions/419235/anyone-know-of-a-good-python-based-web-crawler-that-i-could-use

PycURL 主页 http://pycurl.sourceforge.net/

Scrapy 评估 - BeautifulSoup + Mechanize 使用 Evenlet 来获得并发性似乎可能更简单（我的评论来自这里）

python - Scrapy值得学习吗？ - 堆栈溢出 https://stackoverflow.com/questions/6283271/is-it-worth-learning-scrapy

提炼、重用和请求数据 |刮刀维基 https://scraperwiki.com/

Answer

好吧，在收到 scrapy 的链接后我做了一些研究，并意识到我正在谈论一个网络爬虫。对于其他可能关心的人，这里是我收集的一些信息。

仍然不确定如何前进，但听起来 BeautifulSoup 和 Mechanize 可能是最简单的前进方式。斜纹布由于其简单性也看起来相当不错。有什么想法吗？

我的研究链接的汇编

python 网页抓取工具概述的演示 http://www.slideshare.net/maikroeder/overview-of-python-web-scraping-tools

机械化 http://wwwsearch.sourceforge.net/mechanize/

美丽汤：我们叫他乌龟，因为他教我们。 http://www.crummy.com/software/BeautifulSoup/

twill：一种用于网页浏览的简单脚本语言 http://twill.idyll.org/

Selenium - Web 浏览器自动化 http://seleniumhq.org/

PhantomJS：带有 JavaScript API 的 Headless WebKit http://phantomjs.org/

机械化是我的最爱；强大的高级浏览功能（超级简单的表单填写和提交）。

Twill 是一种构建在 Mechanize 之上的简单脚本语言

BeautifulSoup + urllib2 也工作得很好。

Scrapy 看起来是一个非常有前途的项目；这是新的。

有人知道我可以使用一个基于 Python 的网络爬虫吗？ - 堆栈溢出 https://stackoverflow.com/questions/419235/anyone-know-of-a-good-python-based-web-crawler-that-i-could-use

PycURL 主页 http://pycurl.sourceforge.net/

Scrapy 评估 - BeautifulSoup + Mechanize 使用 Evenlet 来获得并发性似乎可能更简单（我的评论来自这里）

python - Scrapy值得学习吗？ - 堆栈溢出 https://stackoverflow.com/questions/6283271/is-it-worth-learning-scrapy

提炼、重用和请求数据 |刮刀维基 https://scraperwiki.com/

Question 2

我一直用轻量级水压(libwww-perl) 或网址：机械化对于这样的工作 - 有几种编程任务我会使用 python 来完成，但我更喜欢使用 perl 来完成涉及文本处理的任何事情。

我写的最复杂的一篇可能是几年前，当时我和我的伙伴拥有一家小书店 - 她需要一个程序从图书经销商的网站中提取有关书籍的信息（输入 ISBN 或条形码）并将相关详细信息插入到她中（ postgresql) 股票数据库。

请注意，编写网络爬虫可能是乏味且耗时的 - 您花费大量时间阅读各种网页的 HTML 源代码并弄清楚如何识别和提取您正在寻找的信息。

这并不是特别困难，但确实需要良好的 HTML 知识和至少中级编程技能。

您可能必须为每个数据库站点编写一个不同的抓取工具，而不是一个完成所有这些操作的抓取工具 - 尽管您可以编写一个包装器脚本，将它们作为函数包含或根据站点调用单独的脚本。

网站也会发生变化。一个已经运行良好六到十二个月的抓取工具可能会突然停止工作，因为该网站已被重新设计并且它不再按照脚本预期的方式工作。

因此，如果任何数据库具有某种用于编程访问的 API（例如使用休息或者肥皂甚至RSS）然后使用它而不是抓取 HTML。不幸的是，对于通过图书馆提供的数据库类型来说，这是不太可能的（数据库所有者往往对数据持前网络态度，并且对控制和限制访问比其他任何事情都更感兴趣）。他们不希望任何人能够轻松地通过程序而不是浏览器访问他们的数据，并且有些人花大力气混淆他们的网站，使 HTML 代码难以理解，或者需要 JavaScript 解释器来提取链接和其他数据。

一个很好的例子就是电视列表网站——其中一些网站确实不希望人们使用他们的数据来自动安排 MythTV 等节目的录制时间表，因此网站开发人员和网站抓取者之间存在着一场持续不断的技术战争作者。

Perl 有 javascript 解释器（包括一个与 WWW::Mechanize 一起使用的解释器，称为WWW::脚本编写者，但有时自己检查网站的 javascript 代码，弄清楚它在混淆 HTML 中做了什么，然后编写 perl 代码来对数据进行反混淆，而不需要 js 解释器，会更容易。

Answer

我一直用轻量级水压(libwww-perl) 或网址：机械化对于这样的工作 - 有几种编程任务我会使用 python 来完成，但我更喜欢使用 perl 来完成涉及文本处理的任何事情。

我写的最复杂的一篇可能是几年前，当时我和我的伙伴拥有一家小书店 - 她需要一个程序从图书经销商的网站中提取有关书籍的信息（输入 ISBN 或条形码）并将相关详细信息插入到她中（ postgresql) 股票数据库。

请注意，编写网络爬虫可能是乏味且耗时的 - 您花费大量时间阅读各种网页的 HTML 源代码并弄清楚如何识别和提取您正在寻找的信息。

这并不是特别困难，但确实需要良好的 HTML 知识和至少中级编程技能。

您可能必须为每个数据库站点编写一个不同的抓取工具，而不是一个完成所有这些操作的抓取工具 - 尽管您可以编写一个包装器脚本，将它们作为函数包含或根据站点调用单独的脚本。

网站也会发生变化。一个已经运行良好六到十二个月的抓取工具可能会突然停止工作，因为该网站已被重新设计并且它不再按照脚本预期的方式工作。

因此，如果任何数据库具有某种用于编程访问的 API（例如使用休息或者肥皂甚至RSS）然后使用它而不是抓取 HTML。不幸的是，对于通过图书馆提供的数据库类型来说，这是不太可能的（数据库所有者往往对数据持前网络态度，并且对控制和限制访问比其他任何事情都更感兴趣）。他们不希望任何人能够轻松地通过程序而不是浏览器访问他们的数据，并且有些人花大力气混淆他们的网站，使 HTML 代码难以理解，或者需要 JavaScript 解释器来提取链接和其他数据。

一个很好的例子就是电视列表网站——其中一些网站确实不希望人们使用他们的数据来自动安排 MythTV 等节目的录制时间表，因此网站开发人员和网站抓取者之间存在着一场持续不断的技术战争作者。

Perl 有 javascript 解释器（包括一个与 WWW::Mechanize 一起使用的解释器，称为WWW::脚本编写者，但有时自己检查网站的 javascript 代码，弄清楚它在混淆 HTML 中做了什么，然后编写 perl 代码来对数据进行反混淆，而不需要 js 解释器，会更容易。

使用什么脚本语言或平台进行网页下载和屏幕交互？

答案1

答案2

相关内容