如何让“pdftotext”以可读编码输出文本？

Question 1

请注意，在您粘贴的文本中，“first”中的“fi”和“affinity”中的“ffi”是连字（多个字符组合成一个字形）。据推测，pdftotext将每个连字打印为单个字符，而您用来阅读文本的工具不支持该字符。

作为一个超级用户问题建议，试试这个：

pdftotext -enc ASCII7 input.pdf output.txt

这应该可以防止pdftotext逐字打印连字，强制将其扩展为 ASCII 字符。

Answer

请注意，在您粘贴的文本中，“first”中的“fi”和“affinity”中的“ffi”是连字（多个字符组合成一个字形）。据推测，pdftotext将每个连字打印为单个字符，而您用来阅读文本的工具不支持该字符。

作为一个超级用户问题建议，试试这个：

pdftotext -enc ASCII7 input.pdf output.txt

这应该可以防止pdftotext逐字打印连字，强制将其扩展为 ASCII 字符。

Question 2

由于我已经在 Python 中将 pdf 转换为文本，因此我使用简单的 Python 命令对 pdf 文本进行后处理：

# eﬃcient -> 
# efficient
import unicodedata
pdf_text = unicodedata.normalize("NFKC", pdf_text)

Answer

由于我已经在 Python 中将 pdf 转换为文本，因此我使用简单的 Python 命令对 pdf 文本进行后处理：

# eﬃcient -> 
# efficient
import unicodedata
pdf_text = unicodedata.normalize("NFKC", pdf_text)

相关内容