如何使用 sed 从文件中删除 html 标签?

如何使用 sed 从文件中删除 html 标签?

我有一个文件,其中混合了我需要的普通文本和 html 标签。我知道使用 REGEX 可以识别 html 标签,使用 sed 可以将它们替换为空字符串,但我不知道如何具体应用它。

答案1

如果你不坚持的话sed,最好的办法就是这样做lynx

lynx --dump <filename>.html

这将以 html 代码想要显示的格式输出 html 文件的内容。唯一的条件是文件名应该有一个.html.htm扩展名。

答案2

只要您的 HTML 标记仅限于一行,以下内容就可以工作:

sed 's/<[^>]*>//g'

答案3

我强烈建议使用名为html2text(1) (2) 反而。解析 HTML 比看起来要困难得多。

相关内容