例如。
在 PDF 中这但当我复制到记事本时它会粘贴这. 如何复制大小写相同的文本?
例如:(“the” 只是举例)
这是 PDF
The Superman xxxxxxx xxxxxx xxxxxx xxxxxxxx xxxxxx x xxxx xx
xxxx xxxx xxxxxxxxxxx x to you x x xxxxxxxxxxxxxx xxxx xxx
xxxx xxxxxx
The xxxxxx xxxxxxx xxxxxx xxxxxx xxxxxxxx xxxxxx x xxxx xx
xxxx xxxx xxxxxxxxxxx x xxxxxxxx x x xxxxxxxxxxxxxx xxxx xxx
xxxx xxxxxx
这是粘贴的文本(参见第二段的“”)
The Superman xxxxxxx xxxxxx xxxxxx xxxxxxxx xxxxxx x xxxx xx
xxxx xxxx xxxxxxxxxxx x to you x x xxxxxxxxxxxxxx xxxx xxx
xxxx xxxxxx
the xxxxxx xxxxxxx xxxxxx xxxxxx xxxxxxxx xxxxxx x xxxx xx
xxxx xxxx xxxxxxxxxxx x xxxxxxxx x x xxxxxxxxxxxxxx xxxx xxx
xxxx xxxxxx
答案1
将示例导入到Inkscape,选择“将文本导入为文本”也会给我一个小写的“the”。所有其他句子的首字母也是如此。
这些字母后面还显示了一些奇怪的间距。其他文本片段的第一个字母后面也存在同样的奇怪间距,例如第二列中某个 4 项列表的第一个字母后面。这些字母在 Inkscape 中确实也显示为小写,但在普通 PDF 视图中显示为大写。
文档属性显示 PDF 是使用“Adobe Acrobat 8.1 Combine Files”创建的。我猜这个应用程序链接了类似小写字母从导入的文档到正常的大写矢量形状?
一般来说,还有一些其他选择:
如果 PDF 是扫描文档,则某些扫描软件不仅包含扫描图像(即您所看到的图像),还会执行光学字符识别 (OCR)在同一文档中包含隐藏文本(即您搜索和复制的文本)。但这种 OCR 通常并不完美。为了获得更好的结果,OCR 通常还会使用拼写检查词典†。
很难想象 OCR 会误
T
认为t
,但如果它将 解释T
为I
(大写 i),那么拼写检查器可能随后会将其更改Ihe
为the
。如果不是扫描文档,那么源文档可能使用小写字母进行格式化?我不确定 PDF 是否支持这一点,但纯文本(没有任何格式)可能确实是“the”,而不是“The”。
†因此,OCR 有时可以修复原文中存在的错误。