Wget 从 html 网页到多个文本文件

Wget 从 html 网页到多个文本文件

要下载 superSite.com 下一级的所有页面,我执行以下操作:

wget -r -l1 http:/superSite.com

但这些页面是以格式保存的.html。我怎样才能以格式保存它们.txt?(我需要解析这些页面的部分数字内容,所以我不介意丢失横幅/图像)

答案1

如果您想解析下载的 HTML 文件,您可以通过类似方法对其进行过滤html2text(您必须安装包“html2text”)。

如果您想摆脱文档中的格式.html,这可能会有所帮助,但是,解析原始文件.html或新.txt文件几乎是同一件事。

答案2

.html文件文本文件。文件扩展名完全没有区别。所有文件最后都包含某种形式的二进制文件,许多文件最后都包含文本。HTML 文件只是由文本形式的 HTML 标记组成,然后由浏览器解析以显示 HTML 描述的内容。

如果您想以文本形式查看,请使用专用文本编辑器打开 HTML 文件。或者,从文件浏览器中选择“打开为”、“打开方式”或类似选项。

相关内容