我有一个文件,其中混合了我需要的普通文本和 html 标签。我知道使用 REGEX 可以识别 html 标签,使用 sed 可以将它们替换为空字符串,但我不知道如何具体应用它。
答案1
如果你不坚持的话sed
,最好的办法就是这样做lynx
。
lynx --dump <filename>.html
这将以 html 代码想要显示的格式输出 html 文件的内容。唯一的条件是文件名应该有一个.html
或.htm
扩展名。
答案2
只要您的 HTML 标记仅限于一行,以下内容就可以工作:
sed 's/<[^>]*>//g'