从网络提取文本

从网络提取文本

我正在寻找一种简单的工具,它可以抓取我提供的网页并从中提取所有文本元素。如果它能做到以下几点就太好了:纯文本、图片的 alt 和标题、标题部分。如果可能的话,所有这些都分开。输出应该是可搜索的,或者是它抓取的每个页面的文本文件 (xml)。我需要这些文本来将它们传递给翻译人员。

答案1

好老山猫可以为您提供您所需的大多数功能。lynx -dump http://superuser.com/例如,尝试一下。

您还可以使用wget它递归地爬取您需要的站点,然后使用各种可用的转换器处理文件,例如htmltidy

相关内容