如何在 Linux 中将 HTML 转换为文本文件?例如,我想curl
向 Google 发出查询,然后将输出的 html 转换为文本,并在我的终端上读取转换后的文本。我使用的是 RHEL6。
答案1
我不认为 curl 有内置的 HTML 处理器。但是:
lynx --dump <URL>
成功了。
如果您仍想使用 curl,您可以使用html2text
(在 Ubuntu 中可用)。
答案2
您可以安装html2text
(高级 HTML 到文本转换器),其使用方法非常简单:
$ html2text http://example.com/
$ cat file.html | html2text -o file.txt
安装方式:
- Linux:
apt-get install html2text
- 操作系统:
brew install html2text
例如curl
:
$ curl -sL google.com | html2text
Search Images Maps Play YouTube News Gmail Drive More ?
Web History | Settings | Sign in
A better way to browse the web
Get Google Chrome
Advanced search Language tools
[Google Search][I'm Feeling Lucky]
Advertising Programmes Business Solutions+GoogleAbout GoogleGoogle.com
? 2016 - Privacy - Terms