我有这个 pdf 文件
https://www.dropbox.com/sh/thhjvtlzebe20ab/AADVLBVntblYi4Nyi_SlXVRNa?dl=0
其中包含英语和阿拉伯语。我想将其转换为 .docx 文件,有很多方法,但都没有提供很好的效果。
- 如果我使用 MS Office 2016 打开 pdf 文件,我会得到正确的格式,并且所有阿拉伯字母都会正确转换。但我几乎丢失了文档中的所有形状/绘图。
- 如果我将 pdf 文件转换为 .docx 文件,我会得到所有的形状/绘图,但我会得到一堆分页符、分节符、分栏符等,此外 70% 的阿拉伯语单词没有正确转换。
- 我可以使用 VBA 代码消除断点,并且可以使用另一个代码修复大多数错误的转换阿拉伯语单词,但仍然有很多单词需要我必须手动更正。
- 使用 google docs 会带来很多混乱。
- 使用Abbyy finereader也会导致文字混乱。
一些有用的信息:
- 此文件是使用 MS Office word 2013 创建的。由于硬盘坏了,我丢失了原始文件,只备份了 pdf 文件。所有内容的字体都相同,即 (times new roman)
编辑:我使用 Adobe Acrobat Pro 将 PDF 转换为 .docx 文件
如果我只是使用粘贴选项“仅保留文本”将阿拉伯语单词从 pdf 复制并粘贴到 word 文档中,我会得到几乎完美的结果。但我有超过 250 页,这会浪费我没有的时间。
答案1
我尝试了这个在线转换器https://pdf2doc.com/it/
将文件从 PDF 转换为 DOC 并使用 libreoffice 打开它会得到可接受的结果(大多数情况下似乎只需要调整分页)。
结果如下:https://1drv.ms/f/s!Aj15LBU4peCjmZZp1BZZ7l9hwC3cqg
无论如何,由于 Office 套件的 MS 专有格式,转换无法 100% 完成,因此如果您使用第三方转换器,最终您会失去格式,使用 word 2016 打开我为您提供的 libreoffice 文档,结果不是很好。
从 libreoffice 和 word 2016 打开的 doc 文件的屏幕截图: