我正在尝试将文本从 PDF 文件复制到 Word,但是当我将文本粘贴到 Word 文件中时,PDF 文件中的行“更短”,因此它不会占用 Word 中的整行,我必须手动连接句子以使其看起来像正常的(使用退格键)。
我尝试了 PDF 复制粘贴,虽然它有点用,但它删除了每个换行符,因此没有保留段落,但我尝试复制的文件非常大,我需要保留实际的段落。有没有办法让 word 尽可能地适应行数,同时又尊重实际的段落?
答案1
PDF 中的文本由绝对定位的文本片段组成,并且通常不会特别标明换行符和段落换行符。因此,正确确定它们的任务更像是 OCR,这是一项复杂的任务,您很可能需要复杂的软件才能获得令人满意的结果。
例如,MS Word 本身具有导入 PDF 文档的功能,但它也不总是能完美地识别断句(例如,当文本片段有点“倾斜”时,扫描和 OCR 文档就是这种情况)。