从乳胶生成的文件中复制直文本

从乳胶生成的文件中复制直文本

我正在尝试对由乳胶生成的 PDF 文档进行一些更正。

为了进行更正,我首先从 PDF 中复制文本。

所发生的情况是,在生成的 PDF 中,当单词不适合页边距时,它们会在右侧被剪切,例如,当单词“paragraph”太大而无法容纳时,它将被剪切,如下所示:

word1 word2\n 
word3 para-\n
graph word4\n

此外,在需要时也不会进行换行,而是始终在文本末尾进行换行。

我无法访问原始内容。因此,当我将文本复制到某个地方进行编辑时,就会出现问题,因为我最终会得到一堆不必要的换行符和单词断行符(不确定这些换行符到底叫什么)。

有没有办法从 pdf 文件中正确复制文本?

PDF 文件是否这样做,以使文字整齐地适合页面,而无需文本对齐?

答案1

按该顺序运行这两个正则表达式应该可以工作。

s/-\n//g
s/([^.])\n/$1 /g

相关内容