获取网站下的每个页面

Question 1

使用例如wget -r http://site.to.copy.com递归地将所有网页检索到您的本地机器（希望它不是太大......），然后您可以搜索或对文件执行任何操作。

Answer

使用例如wget -r http://site.to.copy.com递归地将所有网页检索到您的本地机器（希望它不是太大......），然后您可以搜索或对文件执行任何操作。

Question 2

wget（手册页在这里) 也能很好地充当爬虫，看看它的--recursive选项。

Answer

wget（手册页在这里) 也能很好地充当爬虫，看看它的--recursive选项。

Question 3

您描述的基本上是一个网络爬虫（获取页面、查找所有链接、跟踪它们等）。目前已经有爬虫实现、像爬虫一样运行的工具（例如 wget），以及 Stack Overflow 上与它们相关的问题。例如...

一旦您拥有可以访问每个页面的东西，您就需要代码来解析页面并查找您感兴趣的文本。

Answer

您描述的基本上是一个网络爬虫（获取页面、查找所有链接、跟踪它们等）。目前已经有爬虫实现、像爬虫一样运行的工具（例如 wget），以及 Stack Overflow 上与它们相关的问题。例如...

一旦您拥有可以访问每个页面的东西，您就需要代码来解析页面并查找您感兴趣的文本。

Question 4

这不是 PHP 解决方案，但您可以使用山猫纯文本 Web 浏览器，具有-crawl和-dump选项，可访问站点上的所有页面并将其转储为文本文件。然后，您可以使用脚本从中提取所需的信息。

Answer

这不是 PHP 解决方案，但您可以使用山猫纯文本 Web 浏览器，具有-crawl和-dump选项，可访问站点上的所有页面并将其转储为文本文件。然后，您可以使用脚本从中提取所需的信息。

相关内容