我想过滤来自 cURL 输出的 html 响应。我应该应用哪个过滤器?使用 Midnight Commander 查看 html 内容没有问题,它将它们显示为格式漂亮的纯文本,所以我猜有这样的过滤器。
答案1
我们将这些过滤器称为“Web 浏览器”——一种解析 HTML 代码并输出漂亮文档的程序。
链接是在 Linux 上运行的控制台 Web 浏览器之一。
易联是另一个。
还有W3M。
您始终可以将 html 代码复制到文本文件并使用 Firefox、Chrome、Opera 等 GUI 浏览器打开它。
请不要使用正则表达式解析 HTML。
编辑。我刚刚意识到你可能想美化你的 HTML 并使用标签来查看它。在这种情况下,你可以使用HTML 整洁库项目或者
将您的 HTML 复制到文本文件并用标签包围<pre>
</pre>
。然后使用浏览器打开它。
答案2
答案3
midnight commander 使用“links”或“lynx”。如果你在 mcview 中看到解析的 HTML,我怀疑你安装了其中一个。
答案4
如果您只是想以一种有吸引力的方式查看 curl 的 html 输出,那么上面建议的 w3m、links 或 lynx 就足够了。
如果你想解析或对输出进行任何操作,那么我推荐使用 html-xml-utils linux 包或美丽汤对于任何涉及网络抓取的项目来说,这是一个非常方便的 Python 包。