我在 Notepad++ 中有一个从 PDF 转换而来的文件。我设法用正则表达式清理了大量令人讨厌的小故障,但这个小故障我没能解决。像这样的数字块:
</2478><2479>
</2517><2518>
</2605><2606>
</2518>
</2645>
成千上万个。它们看起来像一些“打开” - “关闭”命令。我只想彻底删除它们。但是我如何搜索以“<”开头的块?我知道这是正则表达式中的特殊字符,但即使使用反斜杠(甚至使用两个)对其进行转义,Notepad++ 也找不到它们。
我究竟做错了什么?
@Toto 和 LPChip 感谢您的回复。
以下是德语文本的示例(名称已更改):
http://www.XXXXX-service.com/
<2339>Seite </2339><2343/><2346> von 150</2346>
<2355>Seite </2355><2359/><2362> von 150</2362>
<2368>JOHN SMITH Engineering GmbH - </2368><2369>www.XXXXX-service.com</2369>
http://www.XXXXX-service.com/
<2381>Seite </2381><2385/><2388> von 150</2388>
<2394>JOHN SMITH Engineering GmbH - </2394><2395>www.XXXXX-service.com</2395>
http://www.XXXXX-service.com/
<2407>JOHN SMITH Engineering GmbH - </2407><2408>www.XXXXX-service.com</2408>
http://www.XXXXX-service.com/
Seite 89 von 150
<2426>Seite </2426><2430/><2433> von 150</2433>
“Seite” = 页码,“von” = 的。因此,这些字段可能是从原始 PDF 中接管的。由于最终的英文版本无论如何都必须完全重新格式化,因此我可以删除这些字段。
该文件以Word格式计有300多页,约39,000个单词。
但文档中散布着大约 5000 个这样的 <1234> 项。它们都不包含对理解该句子至关重要的信息。下面是一个很好的例子:
<4321>Aufnahme des neuen Hilfsaggregats Frequenzumrichter Siemens Sinamic G120C (Kapitel </4321><4337>9</4337><4343> dieses Berichts)</4343>
这是说明西门子变频器已添加到报告中并引用第 9 章 (Kapitel 9) 的注释。因此章节号是明文的。
也就是说,这些<1234>
候选人都可以去。
例如
Aufnahme des neuen Hilfsaggregats Frequenzumrichter Siemens Sinamic G120C (Kapitel 9 dieses Berichts)
我已经激活了 Reg Ex。
啊
@Toto 那个 reg ex 解决方案看起来很有希望。本周晚些时候,我会在有空的时候试一试。但在我看来,这似乎解决了这个问题。我以前使用过 reg ex on 和 off,但你的回答中有几个命令我从未使用过。活到老学到老。非常感谢!AH
更新...25 日星期三... F&R 结果截图
非常好——非常感谢所有参与者!