我有 PDF 文件。
我需要从中复制一些文本并保留其格式(因此我需要保存斜体,大胆的、_下划线_、字体大小和颜色、链接)。
看来我需要将文本从 PDF 复制为 HTML 或 RTF(或类似内容)。
我试过:
- 从 Atril 复制文本,粘贴到 LibreOffice Writer - 即使我选择粘贴为 RTF,也只得到纯文本;
- 从 Atril 复制文本,粘贴到 Abiword - 得到纯文本;
- 从 Okular 复制文本,粘贴到 LibreOffice 或 Abiword - 得到纯文本;
- 将 PDF 转换为 HTML
pdf2htmlex
- 得到 HTML,但从网络浏览器复制会使所有文本再次变得纯文本; - 将 PDF 导入 LibreOffice Impress - 格式得以保留,但由于文本块数量巨大,复制起来很困难。
我应该使用 Ubuntu 16.04 LTS 存储库中的哪个软件来解决我的问题?
答案1
一般来说这是不可能的。即使使用 Acrobat Reader Pro 也不行。Adobe 建议另存为 Word 文档或 HTML。Evince 或 Okular 允许您使用 utf8 查看器中的格式进行复制和粘贴,但这会丢弃大部分格式。
正如您所说,最好的选择可能是使用 LibreOffice 导入,它会尝试保留 pdf 格式的许多可映射到 odf 的功能。此外,您还可以使用该pdftk
工具从较大的 pdf 文件中选择特定页面,然后将其导入 LibreOffice。