是否有一个 Linux 过滤器可以将 html 转换为简单且格式漂亮的文本?

是否有一个 Linux 过滤器可以将 html 转换为简单且格式漂亮的文本?

我想过滤来自 cURL 输出的 html 响应。我应该应用哪个过滤器?使用 Midnight Commander 查看 html 内容没有问题,它将它们显示为格式漂亮的纯文本,所以我猜有这样的过滤器。

答案1

我们将这些过滤器称为“Web 浏览器”——一种解析 HTML 代码并输出漂亮文档的程序。

链接是在 Linux 上运行的控制台 Web 浏览器之一。

易联是另一个。

还有W3M

您始终可以将 html 代码复制到文本文件并使用 Firefox、Chrome、Opera 等 GUI 浏览器打开它。

请不要使用正则表达式解析 HTML

编辑。我刚刚意识到你可能想美化你的 HTML 并使用标签来查看它。在这种情况下,你可以使用HTML 整洁库项目或者

将您的 HTML 复制到文本文件并用标签包围<pre> </pre>。然后使用浏览器打开它。

答案2

为了山猫,语法为:

curl ... | lynx --stdin

(看如何将 html 导入 lynx?

答案3

midnight commander 使用“links”或“lynx”。如果你在 mcview 中看到解析的 HTML,我怀疑你安装了其中一个。

答案4

如果您只是想以一种有吸引力的方式查看 curl 的 html 输出,那么上面建议的 w3m、links 或 lynx 就足够了。

如果你想解析或对输出进行任何操作,那么我推荐使用 html-xml-utils linux 包或美丽汤对于任何涉及网络抓取的项目来说,这是一个非常方便的 Python 包。

相关内容