我在 Excel 中创建了很多电子表格。基本上由各种列组成。问题是其中一列包含大量文本(整段文字)。插入此列的文本来自一个巨大的 PDF 文件(这个 PDF 文件包含很多我不需要的其他内容)。
到目前为止,我所做的就是手动将我需要的内容从 PDF 复制并粘贴到 excel 中
复制 » 双击单元格 » 粘贴
这会导致文本丢失格式,当我将段落粘贴到特定单元格中时,会出现许多需要手动删除的空白。
单击单元格»在公式栏中退格空白,直到段落变为一行»换行以保持整洁
我的解决方案是
- 将多个段落复制到 MS Word 表格中
- 合并行,直到每个段落都归入一行
- 通过删除段落分隔符并用空格替换它们来修复格式查找/替换方法
- 将其粘贴到 excel 中
现在我的电子表格变得相当大,不断的复制粘贴变成了一件非常痛苦的事情。有没有更简单的方法可以解决这个问题?
我理想中的情况是,PDF 中的每个段落都应位于单个 Excel 单元格中,而没有令人厌烦的空白。
我原本想从 PDF 中突出显示我需要的部分,然后以某种方式将其从 PDF 中提取到 Excel 列中。以某种方式神奇地将每个段落插入单个列中的不同单元格中,而没有大量空白。
(或者)
将整个 PDF 插入 Excel(再次以某种方式神奇地将每个段落插入到单列中的不同单元格中,而没有大量空白),然后我就可以删除不需要的段落/内容。
我知道我不会得到完美的解决方案,但任何可以节省我时间的方法都很棒!
我做这项工作是为了学校,没有办法解决这个问题。
答案1
简短的回答:不。
详细回答:这很大程度上取决于 PDF 的性质。与 Adobe 让您相信的相反,PDF 规范是一份长达 900 页的乱七八糟的东西,其中很多内容取决于 PDF 的创建方式和读取方式。
如果所讨论的 PDF 包含某种有用格式的嵌入文本层,例如XML
,您可以只提取该层,并使用将XML
“段落”映射到不同的 Excel 单元格。具体细节完全取决于 PDF 文件的创建方式、这种潜在层的外观以及您的编码技能。
如果你决定尝试提取 PDF 图层,请参阅此主题了解其中涉及的内容。