如何将波斯语 PDF 文件转换为 Microsoft Word 格式?

如何将波斯语 PDF 文件转换为 Microsoft Word 格式?

我有一个波斯语脚本的 pdf 文件,它是右到左。由于波斯语使用 UTF-8 格式,因此我无法在 Microsoft Word 中将其转换为纯文本,也无法复制粘贴文本,导致无法读取字符。我尝试了很多软件,例如统一PDF和 e-Pdf Converter,但是转换后字符仍然无法正确显示。我甚至尝试了 OCR,但问题再次出现。pdf 没有任何密码或限制。

有人还有其他想法吗?

编辑:我实际上尝试在 MS Word 中创建一个文件并将其转换为 PDF,之后我再次遇到了与 PDF 文件相同的问题。(即使编码是已知的)

答案1

我在将 pdf 文件转换为 word 时遇到了同样的问题。在 Word 中复制/粘贴后,格式发生了变化并造成了麻烦。我尝试了几个在线转换器,但它们都失败了。
唯一有效的方法如下:

  1. 使用 Adob​​e Acrobat Reader 打开 pdf 文件,然后从文件菜单中选择打印。从打印机名称中选择 adobe acrobat。是的,您即将从 pdf 创建 pdf!
  2. 使用 Google Chrome 打开新的 pdf 文件(将文件拖放到 Chrome 上)。
  3. 现在只需选择所有文本(ctrl + A)并将其复制/粘贴到空白 Word 文件中。

答案2

很多时候,非拉丁文脚本(尤其是阿拉伯文、希伯来文和波斯文等 RTL 脚本)的 PDF 文件是由软件生成的,这些软件会在单词或句子片段级别对文本进行 LTR 化,或者只是以某种方式显示正确的字形,但“逻辑”文本却乱七八糟。在这些情况下,除了编写自定义反向转换器(实际上不是一种选择)外,几乎无能为力。

但是,如果您可以弄清楚文件是如何创建的(这通常在可使用常见 PDF 阅读器访问的元数据中指示),那么可能会有选择在生成该文件的应用程序中打开该文件,或者至少您可以使您的问题更具体。

答案3

我目前正在努力将 PDF 转换为可编辑的波斯语文本。我发现的最佳解决方案是使用 Google Doc,如下所示。

  1. 您应该将 pdf 页面转换为图像。为此,您可以使用 Adob​​e acrobat reader(不是免费的 adobe reader)或者在 Linux 中我使用 GIMP 打开 pdf,然后选择在单独的图像中打开每个页面。这是您自己的选择。
  2. 将图像文件上传至 Google Drive
  3. 转到 Google Drive 并右键单击每张图片,然后单击open with google doc
  4. 等到 Google Doc 从图片中打开可编辑文本
  5. 复制到word中

我不知道是否有任何自动化方法。我希望有时间可以开发一个应用程序来自动完成此操作。

答案4

我知道现在回答已经太晚了,但对于有同样问题的人,我可以建议Delix.ir这是一个波斯语 OCR 和 PDF 到文字的转换器。

免责声明:我是 delix.ir 的创始人,我希望它不会被视为广告。

相关内容