提取 html 文本文件到文本文件

提取 html 文本文件到文本文件

我有一个包含许多 html 文件的文件夹,我只想提取包含在 html 正文中的文本到 txt 文件中,我该怎么做?

答案1

您可以遍历目录中的每个文件并使用命令行浏览器,例如山猫或者w3m将 HTML 呈现为纯文本并将其保存到文本文件中。

Lynx 示例:

lynx -dump in.html > out.txt

w3m 示例:

w3m -dump in.html > out.txt

相关内容