从 PDF 复制，每行末尾不换行

Question 1

将文本复制到另一个可以删除换行符的文本编辑器中。我实际上指的是 Sublime Text。您只需按照以下步骤操作：

安装Sublime Text；
安装包控制（这不是必要的，但几乎是必不可少的）；
搜索使用包控制粘贴 PDF 文本块并安装它，如果您没有安装包控制，请手动安装。
Ctrl+alt+v 将您想要从 pdf 文件复制到 Sublime Text 中的新文件中。

您将看不到任何换行符。

Answer

将文本复制到另一个可以删除换行符的文本编辑器中。我实际上指的是 Sublime Text。您只需按照以下步骤操作：

安装Sublime Text；
安装包控制（这不是必要的，但几乎是必不可少的）；
搜索使用包控制粘贴 PDF 文本块并安装它，如果您没有安装包控制，请手动安装。
Ctrl+alt+v 将您想要从 pdf 文件复制到 Sublime Text 中的新文件中。

您将看不到任何换行符。

Question 2

我可以想象出几个可以解决这个问题的可能方法。

一种方法是，由于 latex 知道什么是段落，什么不是段落，它可以向 pdf 文件输出某种元数据来标记段落。这必须以这样的方式完成，即使 pdf 仍然是格式良好的 pdf，可以由根据 Adobe 规范编写的应用程序读取。或者元数据可以以某种方式与 PDF 捆绑在一起，例如，通过将 PDF 文件和元数据压缩到同一个文件中。

另一种解决方案是使用某种人工智能算法来尝试检测哪些是段落结尾，哪些不是。我认为这不是一个容易解决且准确度较高的问题。例如，Distributed Proofreaders 使用全球各地的人类志愿者对经过 OCR 处理的文本进行此类处理。但是，可能可以以相当高的精度做到这一点。如果有这样的启发式算法，我想您可以通过查看 OCR 软件找到它。

这个问题没有好的解决办法（假设我是对的）主要是因为 Adobe 的设计决定是将 PDF 变成一种演示格式，而这种格式并不重视将格式与内容分开。此外，PDF 是 Adobe 的婢女。除非 Adobe 认可它为标准方法，否则任何解决方案都不太可能获得支持 —— 而且目前还不清楚 Adobe 是否对这个问题有任何经济利益。

Answer

我可以想象出几个可以解决这个问题的可能方法。

一种方法是，由于 latex 知道什么是段落，什么不是段落，它可以向 pdf 文件输出某种元数据来标记段落。这必须以这样的方式完成，即使 pdf 仍然是格式良好的 pdf，可以由根据 Adobe 规范编写的应用程序读取。或者元数据可以以某种方式与 PDF 捆绑在一起，例如，通过将 PDF 文件和元数据压缩到同一个文件中。

另一种解决方案是使用某种人工智能算法来尝试检测哪些是段落结尾，哪些不是。我认为这不是一个容易解决且准确度较高的问题。例如，Distributed Proofreaders 使用全球各地的人类志愿者对经过 OCR 处理的文本进行此类处理。但是，可能可以以相当高的精度做到这一点。如果有这样的启发式算法，我想您可以通过查看 OCR 软件找到它。

这个问题没有好的解决办法（假设我是对的）主要是因为 Adobe 的设计决定是将 PDF 变成一种演示格式，而这种格式并不重视将格式与内容分开。此外，PDF 是 Adobe 的婢女。除非 Adobe 认可它为标准方法，否则任何解决方案都不太可能获得支持 —— 而且目前还不清楚 Adobe 是否对这个问题有任何经济利益。

从 PDF 复制，每行末尾不换行

答案1

答案2

相关内容