我有一个非常大的文本文件,~ 105 G
它包含很多内容<XXXX>
(尖括号包括中间的文本)。
我想删除那些括号和中间的文本。
答案1
“sed”是你的朋友。我想没有嵌入的括号。
小心!这将覆盖您的文件。
sed -i 's/<[^>]*>//g' big_file
答案2
给定一个 XML 文件和可用性XML小星:
$ cat file.xml
<root>
<tag attrib="hello">Hello world</tag>
<tag attrib="nice">Nice to see you</tag>
</root>
$ xmlstarlet sel -t -v / file.xml
Hello world
Nice to see you
这使用 XMLStarlet 提取根节点及其所有子节点的值。