提取 html 文本文件到文本文件

2024-6-17 • tag-icon

提取 html 文本文件到文本文件

我有一个包含许多 html 文件的文件夹，我只想提取包含在 html 正文中的文本到 txt 文件中，我该怎么做？

答案1

您可以遍历目录中的每个文件并使用命令行浏览器，例如山猫或者w3m将 HTML 呈现为纯文本并将其保存到文本文件中。

Lynx 示例：

lynx -dump in.html > out.txt

w3m 示例：

w3m -dump in.html > out.txt

相关内容