使用多个字母作为一个整体来划分一些文本

使用多个字母作为一个整体来划分一些文本

我有一个 html 文件,其中包含大量 /<|^、一些文本以及垃圾标题、单词等。我想提取一组字母之间的一些文本,例如“nbsp”和竖线“|”。如果我使用“delims=nbsp”,我会丢失信息,因为 delims 将它们视为“n”、“b”、“s”和“p”。我应该如何解决这个问题,以及如何提取大量文本?

示例文本:

garbage nbsp; SOME_TEXT_1 | garbage
garbage nbsp; SOME_TEXT_2 | garbage
garbage nbsp; SOME_TEXT_3 | garbage

答案1

如果文本确实像您的示例一样简单,那么就可以了;

for /f "delims=^|; tokens=2" %a in (garbage.txt) do echo %a

如果周围的文本包含更多分号,那么您可能更容易获得 Windows 版本的 sed 或 awk。或者任何像样的文本编辑器,如果这是一次性工作的话。

相关内容