当我从 PDF 复制文本时结构不同

Question

您需要在 C# 中的提取过程中应用某种逻辑。

PDF 文档并非旨在成为一种有用的文本存储方法，以便随后在其他软件中使用或以其他格式输入。PDF 的设计初衷是打印页面的表示形式，由一系列指令组成，例如Text of font A, size B at co-ordinate X,Y。它不使用与 Microsoft Word 或 HTML 相同的方法，在这些方法中，您可以将文档格式化为分组的段落或行。

实际上，当您从 PDF 软件中复制并粘贴时，它会将这些说明解释为模糊地模拟我们对段落结构的想法，并会尝试以您期望的方式选择它们。但是，正如您所见，这并不总是完美的，而且很容易出错。

恐怕你的问题的答案是问题问题不在于您的示例，而在于使用 PDF 格式来实现您想要实现的功能。它不是为文本解析而设计的，尽管它当然可以做到，而且 iTextSharp 肯定会为您提供实现这一目标的工具，但您可能需要“模拟”逐行阅读才能做到这一点。

当然，你会发现有些 PDF 看起来制作得很完美，复制粘贴也没有问题。不过请记住，这更多的是软件的问题创造PDF 使用可预测的策略来实现这一点，并且软件阅读PDF 使用可预测的策略来恢复它，而不是存在一个完美的方法来做到这一点。

Answer 1

您需要在 C# 中的提取过程中应用某种逻辑。

PDF 文档并非旨在成为一种有用的文本存储方法，以便随后在其他软件中使用或以其他格式输入。PDF 的设计初衷是打印页面的表示形式，由一系列指令组成，例如Text of font A, size B at co-ordinate X,Y。它不使用与 Microsoft Word 或 HTML 相同的方法，在这些方法中，您可以将文档格式化为分组的段落或行。

实际上，当您从 PDF 软件中复制并粘贴时，它会将这些说明解释为模糊地模拟我们对段落结构的想法，并会尝试以您期望的方式选择它们。但是，正如您所见，这并不总是完美的，而且很容易出错。

恐怕你的问题的答案是问题问题不在于您的示例，而在于使用 PDF 格式来实现您想要实现的功能。它不是为文本解析而设计的，尽管它当然可以做到，而且 iTextSharp 肯定会为您提供实现这一目标的工具，但您可能需要“模拟”逐行阅读才能做到这一点。

当然，你会发现有些 PDF 看起来制作得很完美，复制粘贴也没有问题。不过请记住，这更多的是软件的问题创造PDF 使用可预测的策略来实现这一点，并且软件阅读PDF 使用可预测的策略来恢复它，而不是存在一个完美的方法来做到这一点。

当我从 PDF 复制文本时结构不同

答案1

相关内容