替换数字块:

替换数字块:

我在 Notepad++ 中有一个从 PDF 转换而来的文件。我设法用正则表达式清理了大量令人讨厌的小故障,但这个小故障我没能解决。像这样的数字块:

</2478><2479>
</2517><2518>
</2605><2606>
</2518>
</2645>

成千上万个。它们看起来像一些“打开” - “关闭”命令。我只想彻底删除它们。但是我如何搜索以“<”开头的块?我知道这是正则表达式中的特殊字符,但即使使用反斜杠(甚至使用两个)对其进行转义,Notepad++ 也找不到它们。

我究竟做错了什么?

@Toto 和 LPChip 感谢您的回复。

以下是德语文本的示例(名称已更改):

http://www.XXXXX-service.com/
<2339>Seite </2339><2343/><2346> von 150</2346>
<2355>Seite </2355><2359/><2362> von 150</2362>
<2368>JOHN SMITH Engineering GmbH - </2368><2369>www.XXXXX-service.com</2369>
http://www.XXXXX-service.com/
<2381>Seite </2381><2385/><2388> von 150</2388>
<2394>JOHN SMITH Engineering GmbH - </2394><2395>www.XXXXX-service.com</2395>
http://www.XXXXX-service.com/
<2407>JOHN SMITH Engineering GmbH - </2407><2408>www.XXXXX-service.com</2408>
http://www.XXXXX-service.com/
Seite 89 von 150
<2426>Seite </2426><2430/><2433> von 150</2433>

“Seite” = 页码,“von” = 的。因此,这些字段可能是从原始 PDF 中接管的。由于最终的英文版本无论如何都必须完全重新格式化,因此我可以删除这些字段。

该文件以Word格式计有300多页,约39,000个单词。

但文档中散布着大约 5000 个这样的 <1234> 项。它们都不包含对理解该句子至关重要的信息。下面是一个很好的例子:

<4321>Aufnahme des neuen Hilfsaggregats Frequenzumrichter Siemens Sinamic G120C (Kapitel </4321><4337>9</4337><4343> dieses Berichts)</4343>

这是说明西门子变频器已添加到报告中并引用第 9 章 (Kapitel 9) 的注释。因此章节号是明文的。

也就是说,这些<1234>候选人都可以去。

例如

Aufnahme des neuen Hilfsaggregats Frequenzumrichter Siemens Sinamic G120C (Kapitel 9 dieses Berichts)

我已经激活了 Reg Ex。

@Toto 那个 reg ex 解决方案看起来很有希望。本周晚些时候,我会在有空的时候试一试。但在我看来,这似乎解决了这个问题。我以前使用过 reg ex on 和 off,但你的回答中有几个命令我从未使用过。活到老学到老。非常感谢!AH

更新...25 日星期三... F&R 结果截图

非常好——非常感谢所有参与者!

答案1

  • Ctrl+H
  • 找什么:</?\d+/?>
  • 用。。。来代替:LEAVE EMPTY
  • 打钩 环绕
  • 选择 正则表达式
  • Replace all

解释:

<           # less than sign
/?          # optional slash
\d+         # 1 or more digits
/?          # optional slash
>           # greater than sign

截图(之前):

在此处输入图片描述

截图(之后): 在此处输入图片描述

答案2

您可以使用的正则^<.+>$ 表达式如下所示: 在此处输入图片描述

相关内容