我想将.pdf
文件转换为.odt
文件,以便我可以进一步将其转换为.doc
文件。 是否有任何软件/脚本可以做到这一点。 我尝试复制文件的内容.pdf
并将其粘贴到 LibreOffice Writer 中,但格式没有保留。
该文件是保密的,所以我不想使用任何在线服务进行转换。
非常感谢您的帮助。
答案1
你可以看看PDF Utilities
(通过 Synaptic 或 apt-get 的 poppler-utils),其中包括pdf转文本:
Poppler 是一个基于 Xpdf PDF 查看器 的 PDF 渲染库。
该软件包包含命令行实用程序(基于 Poppler),用于获取 PDF 文档的信息、将其转换为其他格式或对其进行操作:
* pdfdetach — 列出或提取嵌入文件(附件)
* pdffonts — 字体分析器
* pdfimages — 图像提取器
* pdfinfo — 文档信息
* pdfseparate — 页面提取工具
* pdftocairo — 使用 Cairo 将 PDF 转换为 PNG/JPEG/PDF/PS/EPS/SVG
* pdftohtml — PDF 转换为 HTML
* pdftoppm — PDF 转换为 PPM/PNG/JPEG 图像
* pdftops — PDF 转换为 PostScript(PS)
* pdftotext — 文本提取
* pdfunite — 文档合并工具
当然,成功取决于 pdf 文件的生成方式。如果你得到你想要的文本文件,那么你可以保存那作为 .odt 文件。
编辑:我忘了提供引文的来源。它来自 Synaptic 的描述选项卡PDF Utilities (based on Poppler).
答案2
我也因为没有免费的 PDF 到 ODT 转换器而烦恼。我甚至不需要任何复杂的东西。只需要一个可以生成 ODT 文件的工具,然后我就可以在 LibreOffice 中对其进行注释(例如填写表格)。
我知道如何手动完成此操作,通过将 PDF 文档转换为图形文件,然后将其导入 LibreOffice,但这很快就会变得繁琐。
因此,我最终编写了一个简短的 shell 脚本,可以自动完成所有必需的步骤。您可以在以下位置找到它:https://github.com/gutschke/pdf2odt
它可以将任意数量的 PDF 和图像文件作为输入,并生成可在 LibreOffice 中打开和编辑的 ODT 文件。图像显示为页面背景,因此您可以自由地在其上书写。每个图像都与其自己的页面样式相关联。插入分页符时请记住这一点,并根据需要调整页面样式。
我在 Linux 和 Mac 上测试了该脚本。考虑到它只需要一些相当标准的工具,因此它的可移植性应该相当高。
答案3
LibreOffice 能够导入.pdf
文件。只需在最新版本的 LibreOffice 中打开即可获得最佳效果。但是,它会将文档作为绘图打开,并且您只能将其转换为受支持的图像格式之一,而不能将其转换为 Writer 文档。
当然,并非所有格式都会被保留,但至少会保留一部分。
答案4
如果poppler 实用程序软件包安装完成后,文件管理器脚本包括下面的命令将有助于将 PDF 文件转换为 HTML(可以删除选项“-i”以包含图像),然后可以使用 LibreOffice Writer 打开并保存为 ODT尽管格式转换的成功很大程度上取决于 PDF 的创建方式。
pdftohtml -noframes -q -s -c -i -p -noframes <filename>