从 PDF 复制,每行末尾不换行

从 PDF 复制,每行末尾不换行

当我制作 PDF、打开它并将段落复制到记事本时,PDF 中每行的末尾都会出现强制换行符。有没有办法解决这个问题,以便我可以将段落复制为连续的文本?

(当然,我可以从我的.tex文件中复制该段落。但重点是我希望其他人能够从我的 pdf 中复制文本。)

我的 MWE:

\documentclass[11pt,a4paper]{article}
\usepackage[cp1250]{inputenc}
\begin{document}
Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
\end{document}

答案1

将文本复制到另一个可以删除换行符的文本编辑器中。我实际上指的是 Sublime Text。您只需按照以下步骤操作:

  1. 安装Sublime Text
  2. 安装包控制(这不是必要的,但几乎是必不可少的);
  3. 搜索使用包控制粘贴 PDF 文本块并安装它,如果您没有安装包控制,请手动安装。
  4. Ctrl+alt+v 将您想要从 pdf 文件复制到 Sublime Text 中的新文件中。

您将看不到任何换行符。

答案2

我可以想象出几个可以解决这个问题的可能方法。

一种方法是,由于 latex 知道什么是段落,什么不是段落,它可以向 pdf 文件输出某种元数据来标记段落。这必须以这样的方式完成,即使 pdf 仍然是格式良好的 pdf,可以由根据 Adob​​e 规范编写的应用程序读取。或者元数据可以以某种方式与 PDF 捆绑在一起,例如,通过将 PDF 文件和元数据压缩到同一个文件中。

另一种解决方案是使用某种人工智能算法来尝试检测哪些是段落结尾,哪些不是。我认为这不是一个容易解决且准确度较高的问题。例如,Distributed Proofreaders 使用全球各地的人类志愿者对经过 OCR 处理的文本进行此类处理。但是,可能可以以相当高的精度做到这一点。如果有这样的启发式算法,我想您可以通过查看 OCR 软件找到它。

这个问题没有好的解决办法(假设我是对的)主要是因为 Adob​​e 的设计决定是将 PDF 变成一种演示格式,而这种格式并不重视将格式与内容分开。此外,PDF 是 Adob​​e 的婢女。除非 Adob​​e 认可它为标准方法,否则任何解决方案都不太可能获得支持 —— 而且目前还不清楚 Adob​​e 是否对这个问题有任何经济利益。

相关内容