我需要一个程序来获取某个网站下的所有网页。该网站是中文的,我想把所有英文单词都去掉。然后我就可以提取我需要的所有信息。有什么好主意吗?有没有软件可以实现这个目的?
如果没有,我想写一个。有什么建议吗?
非常感谢。
答案1
使用例如wget -r http://site.to.copy.com
递归地将所有网页检索到您的本地机器(希望它不是太大......),然后您可以搜索或对文件执行任何操作。
答案2
wget
(手册页在这里) 也能很好地充当爬虫,看看它的--recursive
选项。
答案3
您描述的基本上是一个网络爬虫(获取页面、查找所有链接、跟踪它们等)。目前已经有爬虫实现、像爬虫一样运行的工具(例如 wget),以及 Stack Overflow 上与它们相关的问题。例如...
https://stackoverflow.com/questions/102631/how-to-write-a-crawler
一旦您拥有可以访问每个页面的东西,您就需要代码来解析页面并查找您感兴趣的文本。
答案4
这不是 PHP 解决方案,但您可以使用山猫纯文本 Web 浏览器,具有-crawl
和-dump
选项,可访问站点上的所有页面并将其转储为文本文件。然后,您可以使用脚本从中提取所需的信息。