这是否可行:打开多对 PDF 文件,选择文本,将每页分别粘贴到双列 Word 文件的新单元格中

这是否可行:打开多对 PDF 文件,选择文本,将每页分别粘贴到双列 Word 文件的新单元格中

数百个PDF文件位于不同的文件夹中。需要处理的文件的路径在Excel文件中(或文本文件中)。算法如下:

从源文件中获取每对 PDF 文件的地址,打开第一个 PDF,选择第一页中的所有内容,复制,创建一个 Word 文件并将其粘贴到两列表格的左列中。对 PDF 文件的每一页都执行此操作。然后对第二对 PDF 文件执行相同操作,将每一页粘贴到右列中(或者,如果可能,将所有页面粘贴到一起,但每页必须占用一个单独的单元格)。关闭并保存 Word 文件(使用基于 PDF 文件名称的名称)。对下一对 PDF 文件重复此操作。

是否有可能编写一个相当简单的脚本来实现这一点?

答案1

是否有可能编写一个相当简单的脚本来实现这一点?

这可能取决于两个因素:

  1. PDF 是否包含实际文本,或者它们是编译成 PDF 的文本图像(需要光学字符识别 [OCR])?

  2. 您对“相当简单”的定义是什么?

我认为这可能是一个更长的剧本,即使制作起来并不困难。

作为一个小建议,我可能会考虑使用Python完成大部分(如果不是全部)任务。Python 有第三方模块,特别是处理 PDF 和 Word,可能很有用。Python 还能够通过其subprocess模块运行其他命令行程序。

也就是说,您没有理由不能使用各种工具并通过脚本将它们绑定在一起(例如,使用批处理、Python 或与任何其他脚本/编程语言结合使用)。

相关内容