获取网站下的每个页面

获取网站下的每个页面

我需要一个程序来获取某个网站下的所有网页。该网站是中文的,我想把所有英文单词都去掉。然后我就可以提取我需要的所有信息。有什么好主意吗?有没有软件可以实现这个目的?

如果没有,我想写一个。有什么建议吗?

非常感谢。

答案1

使用例如wget -r http://site.to.copy.com递归地将所有网页检索到您的本地机器(希望它不是太大......),然后您可以搜索或对文件执行任何操作。

答案2

wget手册页在这里) 也能很好地充当爬虫,看看它的--recursive选项。

答案3

您描述的基本上是一个网络爬虫(获取页面、查找所有链接、跟踪它们等)。目前已经有爬虫实现、像爬虫一样运行的工具(例如 wget),以及 Stack Overflow 上与它们相关的问题。例如...

https://stackoverflow.com/questions/102631/how-to-write-a-crawler

一旦您拥有可以访问每个页面的东西,您就需要代码来解析页面并查找您感兴趣的文本。

答案4

这不是 PHP 解决方案,但您可以使用山猫纯文本 Web 浏览器,具有-crawl-dump选项,可访问站点上的所有页面并将其转储为文本文件。然后,您可以使用脚本从中提取所需的信息。

相关内容