将 PDF 中所有突出显示的文本提取到单独的 Excel 单元格中

将 PDF 中所有突出显示的文本提取到单独的 Excel 单元格中

我在 Excel 中创建了很多电子表格。基本上由各种列组成。问题是其中一列包含大量文本(整段文字)。插入此列的文本来自一个巨大的 PDF 文件(这个 PDF 文件包含很多我不需要的其他内容)。

到目前为止,我所做的就是手动将我需要的内容从 PDF 复制并粘贴到 excel 中

复制 » 双击单元格 » 粘贴

这会导致文本丢失格式,当我将段落粘贴到特定单元格中时,会出现许多需要手动删除的空白。

单击单元格»在公式栏中退格空白,直到段落变为一行»换行以保持整洁

我的解决方案是

  1. 将多个段落复制到 MS Word 表格中
  2. 合并行,直到每个段落都归入一行
  3. 通过删除段落分隔符并用空格替换它们来修复格式查找/替换方法
  4. 将其粘贴到 excel 中

现在我的电子表格变得相当大,不断的复制粘贴变成了一件非常痛苦的事情。有没有更简单的方法可以解决这个问题?

我理想中的情况是,PDF 中的每个段落都应位于单个 Excel 单元格中,而没有令人厌烦的空白。

我原本想从 PDF 中突出显示我需要的部分,然后以某种方式将其从 PDF 中提取到 Excel 列中。以某种方式神奇地将每个段落插入单个列中的不同单元格中,而没有大量空白。

(或者)

将整个 PDF 插入 Excel(再次以某种方式神奇地将每个段落插入到单列中的不同单元格中,而没有大量空白),然后我就可以删除不需要的段落/内容。

我知道我不会得到完美的解决方案,但任何可以节省我时间的方法都很棒!

我做这项工作是为了学校,没有办法解决这个问题。

答案1

简短的回答:不。

详细回答:这很大程度上取决于 PDF 的性质。与 Adob​​e 让您相信的相反,PDF 规范是一份长达 900 页的乱七八糟的东西,其中很多内容取决于 PDF 的创建方式和读取方式。

如果所讨论的 PDF 包含某种有用格式的嵌入文本层,例如XML,您可以只提取该层,并使用将XML“段落”映射到不同的 Excel 单元格。具体细节完全取决于 PDF 文件的创建方式、这种潜在层的外观以及您的编码技能。

如果你决定尝试提取 PDF 图层,请参阅此主题了解其中涉及的内容。

相关内容