答案1
我在将 pdf 文件转换为 word 时遇到了同样的问题。在 Word 中复制/粘贴后,格式发生了变化并造成了麻烦。我尝试了几个在线转换器,但它们都失败了。
唯一有效的方法如下:
- 使用 Adobe Acrobat Reader 打开 pdf 文件,然后从文件菜单中选择打印。从打印机名称中选择 adobe acrobat。是的,您即将从 pdf 创建 pdf!
- 使用 Google Chrome 打开新的 pdf 文件(将文件拖放到 Chrome 上)。
- 现在只需选择所有文本(ctrl + A)并将其复制/粘贴到空白 Word 文件中。
答案2
很多时候,非拉丁文脚本(尤其是阿拉伯文、希伯来文和波斯文等 RTL 脚本)的 PDF 文件是由软件生成的,这些软件会在单词或句子片段级别对文本进行 LTR 化,或者只是以某种方式显示正确的字形,但“逻辑”文本却乱七八糟。在这些情况下,除了编写自定义反向转换器(实际上不是一种选择)外,几乎无能为力。
但是,如果您可以弄清楚文件是如何创建的(这通常在可使用常见 PDF 阅读器访问的元数据中指示),那么可能会有选择在生成该文件的应用程序中打开该文件,或者至少您可以使您的问题更具体。
答案3
我目前正在努力将 PDF 转换为可编辑的波斯语文本。我发现的最佳解决方案是使用 Google Doc,如下所示。
- 您应该将 pdf 页面转换为图像。为此,您可以使用 Adobe acrobat reader(不是免费的 adobe reader)或者在 Linux 中我使用 GIMP 打开 pdf,然后选择在单独的图像中打开每个页面。这是您自己的选择。
- 将图像文件上传至 Google Drive
- 转到 Google Drive 并右键单击每张图片,然后单击
open with google doc
- 等到 Google Doc 从图片中打开可编辑文本
- 复制到word中
我不知道是否有任何自动化方法。我希望有时间可以开发一个应用程序来自动完成此操作。
答案4
我知道现在回答已经太晚了,但对于有同样问题的人,我可以建议Delix.ir这是一个波斯语 OCR 和 PDF 到文字的转换器。
免责声明:我是 delix.ir 的创始人,我希望它不会被视为广告。