Wget 从 html 网页到多个文本文件

Question 1

如果您想解析下载的 HTML 文件，您可以通过类似方法对其进行过滤html2text（您必须安装包“html2text”）。

如果您想摆脱文档中的格式.html，这可能会有所帮助，但是，解析原始文件.html或新.txt文件几乎是同一件事。

Answer

如果您想解析下载的 HTML 文件，您可以通过类似方法对其进行过滤html2text（您必须安装包“html2text”）。

如果您想摆脱文档中的格式.html，这可能会有所帮助，但是，解析原始文件.html或新.txt文件几乎是同一件事。

Question 2

.html文件是文本文件。文件扩展名完全没有区别。所有文件最后都包含某种形式的二进制文件，许多文件最后都包含文本。HTML 文件只是由文本形式的 HTML 标记组成，然后由浏览器解析以显示 HTML 描述的内容。

如果您想以文本形式查看，请使用专用文本编辑器打开 HTML 文件。或者，从文件浏览器中选择“打开为”、“打开方式”或类似选项。

Answer

.html文件是文本文件。文件扩展名完全没有区别。所有文件最后都包含某种形式的二进制文件，许多文件最后都包含文本。HTML 文件只是由文本形式的 HTML 标记组成，然后由浏览器解析以显示 HTML 描述的内容。

如果您想以文本形式查看，请使用专用文本编辑器打开 HTML 文件。或者，从文件浏览器中选择“打开为”、“打开方式”或类似选项。

相关内容