查找并删除文本中的软连字符

查找并删除文本中的软连字符

我正在尝试清理一段从 OCR 的 PDF 中复制的文本。目前文本包含大量(我认为是)软连字符。这使得在记事本或 Microsoft Word 中“找到”它们变得很困难,这意味着很难从文本中删除它们。

答案1

您能举个例子说明在什么情况下这是不可能实现的吗?

如果它们只是纯文本,您可以直接搜索它们,如果存在,您可以用空字符替换它们。请注意,不同的编码可能会产生不同的结果,因此请尝试emacs或者记事本++...

相关内容