Ubuntu 的网络蜘蛛

Ubuntu 的网络蜘蛛

我正在寻找像这样的 Ubuntu 网络蜘蛛Webripper - Calluna 软件。您可以像使用

wget -r -m example.com

但我正在寻找的功能是您可以输入搜索词(如“Linux”),它会搜索网络并下载它们。Ubuntu 上有这样的程序吗?

答案1

试试 httrack (CLI) 或 webhttrack (Web 界面),它位于 universe repo 中。我不确定您描述的搜索词功能,但它确实提供了许多易于配置的选项。

http://packages.ubuntu.com/de/oneiric/webhttrack

HTTrack 网站复制器 - 免费软件离线浏览器(GNU GPL)

答案2

您可以使用 Google Alerts 创建一种传送到 feed 的搜索页面,然后使用 RSS 阅读器或 Thunderbird 读取它们。

我使用 Thunderbird 来阅读 RSS。我不知道是否有任何 RSS 阅读器可以将 feed 导出为简单的 html。

答案3

你可以给予http 破解器尝试一下。

以下是网站上发布的一些功能:

Free Software (GPL 3)
Generic (works with almost every website)
Runs on GNU/Linux and Windows
Nearly undetectable / blockable by servers
Built with python and pygtk

http://29a.ch/httpripper/screenshots/2.png 截屏

观看来自 httpripper 开发人员本人的教程:

下载链接:

它在 Ubuntu 11.10 x64 下对我有用

答案4

Perl 的 CPAN 上有足够的模块。你只需要一点 perl 脚本。

特别地,看一下 WWW:Mechanize 模块WWW:机械化模块

相关内容