替换数字块：

2024-11-24 • tag-icon

我在 Notepad++ 中有一个从 PDF 转换而来的文件。我设法用正则表达式清理了大量令人讨厌的小故障，但这个小故障我没能解决。像这样的数字块：

</2478><2479>
</2517><2518>
</2605><2606>
</2518>
</2645>

成千上万个。它们看起来像一些“打开” - “关闭”命令。我只想彻底删除它们。但是我如何搜索以“<”开头的块？我知道这是正则表达式中的特殊字符，但即使使用反斜杠（甚至使用两个）对其进行转义，Notepad++ 也找不到它们。

我究竟做错了什么？

@Toto 和 LPChip 感谢您的回复。

以下是德语文本的示例（名称已更改）：

http://www.XXXXX-service.com/
<2339>Seite </2339><2343/><2346> von 150</2346>
<2355>Seite </2355><2359/><2362> von 150</2362>
<2368>JOHN SMITH Engineering GmbH - </2368><2369>www.XXXXX-service.com</2369>
http://www.XXXXX-service.com/
<2381>Seite </2381><2385/><2388> von 150</2388>
<2394>JOHN SMITH Engineering GmbH - </2394><2395>www.XXXXX-service.com</2395>
http://www.XXXXX-service.com/
<2407>JOHN SMITH Engineering GmbH - </2407><2408>www.XXXXX-service.com</2408>
http://www.XXXXX-service.com/
Seite 89 von 150
<2426>Seite </2426><2430/><2433> von 150</2433>

“Seite” = 页码，“von” = 的。因此，这些字段可能是从原始 PDF 中接管的。由于最终的英文版本无论如何都必须完全重新格式化，因此我可以删除这些字段。

该文件以Word格式计有300多页，约39,000个单词。

但文档中散布着大约 5000 个这样的 <1234> 项。它们都不包含对理解该句子至关重要的信息。下面是一个很好的例子：

<4321>Aufnahme des neuen Hilfsaggregats Frequenzumrichter Siemens Sinamic G120C (Kapitel </4321><4337>9</4337><4343> dieses Berichts)</4343>

这是说明西门子变频器已添加到报告中并引用第 9 章 (Kapitel 9) 的注释。因此章节号是明文的。

也就是说，这些<1234>候选人都可以去。

例如

Aufnahme des neuen Hilfsaggregats Frequenzumrichter Siemens Sinamic G120C (Kapitel 9 dieses Berichts)

我已经激活了 Reg Ex。

啊

@Toto 那个 reg ex 解决方案看起来很有希望。本周晚些时候，我会在有空的时候试一试。但在我看来，这似乎解决了这个问题。我以前使用过 reg ex on 和 off，但你的回答中有几个命令我从未使用过。活到老学到老。非常感谢！AH

更新...25 日星期三... F&R 结果截图

非常好——非常感谢所有参与者！

答案1

Ctrl+H
找什么：</?\d+/?>
用。。。来代替：LEAVE EMPTY
打钩环绕
选择 正则表达式
Replace all

解释：

<           # less than sign
/?          # optional slash
\d+         # 1 or more digits
/?          # optional slash
>           # greater than sign

截图（之前）：

截图（之后）：

答案2

您可以使用的正则^<.+>$ 表达式如下所示：

答案1

答案2

相关内容