是否可以从复制的文本中删除连字符？

Question 1

在 Python 中这将是：

import unicodedata
# \uFB00 is the ff ligature.
unicodedata.normalize('NFKD',u'\uFB00').encode('ascii','ignore')

你可以将它与pyPdf阅读pdf文件。

Answer

在 Python 中这将是：

import unicodedata
# \uFB00 is the ff ligature.
unicodedata.normalize('NFKD',u'\uFB00').encode('ascii','ignore')

你可以将它与pyPdf阅读pdf文件。

Question 2

读者表明当我测试这个时，似乎解码了连字符。

顺便说一句，对于 pdflatex 文档，您可以在序言中使用它来显示 PDF 文档中的连字，但复制单个字符：

\输入{glyphtounicode.tex}
\pdfgentounicode=1%

Answer

读者表明当我测试这个时，似乎解码了连字符。

顺便说一句，对于 pdflatex 文档，您可以在序言中使用它来显示 PDF 文档中的连字，但复制单个字符：

\输入{glyphtounicode.tex}
\pdfgentounicode=1%

Question 3

一种可能性是使用您最喜欢的文本编辑器并简单地替换它们。

另一种方法是编写一个利用sed...的脚本~~，但我担心这仅适用于*NIX 系统。~~

Answer

一种可能性是使用您最喜欢的文本编辑器并简单地替换它们。

另一种方法是编写一个利用sed...的脚本~~，但我担心这仅适用于*NIX 系统。~~

Question 4

我的方法很简单，就是从 PDF 复制并粘贴到记事本（删除任何格式），然后从记事本复制并粘贴到 Microsoft Word。

在 Word 中，所有连字都更改为其他格式字体。

我对它们每一个都使用查找和替换（例如 ^l 表示手动行中断，^m 表示手动页面中断等等，你可以在线轻松找到所有内容）并且用正确的形式替换。

只需 4 或 5 个步骤，我就能很快涵盖所有可能性。它对于消除额外的段落中断也很有用 (^P)

Answer

我的方法很简单，就是从 PDF 复制并粘贴到记事本（删除任何格式），然后从记事本复制并粘贴到 Microsoft Word。

在 Word 中，所有连字都更改为其他格式字体。

我对它们每一个都使用查找和替换（例如 ^l 表示手动行中断，^m 表示手动页面中断等等，你可以在线轻松找到所有内容）并且用正确的形式替换。

只需 4 或 5 个步骤，我就能很快涵盖所有可能性。它对于消除额外的段落中断也很有用 (^P)

相关内容