我使用 OCR 从 200 张图片中提取文本,现在我有 200 个 .txt 文件,我必须将所有 .txt 文件复制到单个 word 文档中。我搜索了两个解决方案
立即:找到一种方法将所有文本自动复制到 .doc 文件。
理想:先复制图像,然后自动复制其 OCR 文本。例如,将 29.jpg 复制到 word 文档,然后复制 29.txt 等等...欢迎任何建议。
操作系统:Windows 10
Python:已安装
文本:UTF-8
答案1
使用以下内容创建批处理文件:
CD OCRFolder
copy OCR*.txt > NewFile.txt
C:\Program Files\Microsoft Office\Office15\winword.exe Newfile.txt
del OCR.txt
这将导航到保存 OCR 文件的文件夹。 -CD OCRFolder
将所有 OCR 文本文件合并为 1 个文本文件 -copy OCR*.txt > NewFile.txt
在 Word 中打开新文件 -C:\Program Files\Microsoft Office\Office15\winword.exe Newfile.txt
WinWOrd.exe 的位置可能因 Word 版本的不同而不同。
答案2
由于您要求将它们合并为 .doc 文件,我假设您已经安装了 Microsoft Office。
打开 Microsoft Office,选择“插入”选项卡。单击 旁边的向下箭头Object
,然后选择该Text from File
选项。
按下CtrlA即可选择要合并在一起的所有文件。
注意:如果需要进行任何转换,则意味着每个文件需要额外点击几次!
要将图片添加到文档中,在相同的“插入”选项卡上有一个插入图片的选项,您可以在此处按CtrlA以添加所有图片。但是,它无法将它们交替添加到文本之后。
答案3
所有建议都适用于第一个请求。谢谢
我使用了 MSC 提供的链接并用 python 编写了一个脚本,这是第二个请求的解决方案。但是,由于 Windows 机器中的 utf-8 编码问题(让我抓狂),它只在 Linux 上运行,如果您知道如何克服 Windows 中的 utf-8 编码问题,请发表评论。
#!/usr/bin/python
# -*- coding: UTF-8 -*-
from docx import Document
from docx.shared import Inches
document = Document()
p = document.add_paragraph()
r = p.add_run()
for i in range(29,48):
r.add_picture(str(i)+'.jpg',width=Inches(6.2), height=Inches(9))
with open(str(i)+'.txt','r') as f:
for line in f:
r.add_text(line)
document.save('test.docx')