如何将 HTML 转换为文本?

如何将 HTML 转换为文本?

如何在 Linux 中将 HTML 转换为文本文件?例如,我想curl向 Google 发出查询,然后将输出的 html 转换为文本,并在我的终端上读取转换后的文本。我使用的是 RHEL6。

答案1

我不认为 curl 有内置的 HTML 处理器。但是:

lynx --dump <URL>

成功了。

如果您仍想使用 curl,您可以使用html2text(在 Ubuntu 中可用)。

答案2

您可以安装html2text(高级 HTML 到文本转换器),其使用方法非常简单:

$ html2text http://example.com/
$ cat file.html | html2text -o file.txt

安装方式:

  • Linux:apt-get install html2text
  • 操作系统:brew install html2text

例如curl

$ curl -sL google.com | html2text
Search Images Maps Play YouTube News Gmail Drive More ?
Web History | Settings | Sign in
     A better way to browse the web
       Get Google Chrome

          Advanced search Language tools

        [Google Search][I'm Feeling Lucky]

     Advertising Programmes Business Solutions+GoogleAbout GoogleGoogle.com
                           ? 2016 - Privacy - Terms

相关内容