我知道将任意 PDF 转换为 .tex 的一般问题要么是不可能的,要么会导致无法使用的 LaTeX(例如,将所有内容表示为矢量图形)。
但如果我的 PDF 生成从LaTeX 文件(我不再拥有它),有没有办法将其“逆向工程”回源文件?
答案1
抱歉,但如果该文件是由 LaTex 生成的,它就没什么帮助。
答案2
您丢失了 .tex 文件,想要重新创建 pdf,或许可以对其进行修改。根据文件的长度以及样式文件的“常规”程度,您可以尝试手动重新创建它。
对于文本,您应该能够从 PDF 文件中复制它(除非您使用奇怪的安全功能来禁止这样做),然后将其大块粘贴到 Emacs 中。使用命令,fill
您可以处理分页符并相当好且轻松地重建段落结构。然后,您可以查找/替换多余的字符,例如连字符和重音符。跟踪脚注和标题会带来一些问题;我建议将它们粘贴到它们出现的位置并相应地设置格式前重建段落结构。
对于图形,假设它们是矢量图像,您可以使用 Illustrator 或 Inkscape 将它们从 PDF 文件中分割出来,并将它们保存为 pdflatex 可以使用的适当文件类型。如果它们是 jpg,那你就倒霉了,因为质量已经太差,无法使用。如果它们是使用 PSTricks 或类似程序由 LaTeX 生成的……那你也倒霉了。
章节和小节标题应该足够容易识别和重新格式化。当我写这篇文章时,标记和引用开始看起来像是一个痛苦的世界,但如果你在手动解析文件之前在纸上计划它,它应该是可行的。
数学方程式,如果您有任何特别复杂的方程式,您可以毫无问题地快速重写它。
至于参考文献,您必须重新创建 .bib 文件(假设您使用了一个)。我建议下载您可以在线找到的 BibTeX 条目,然后手动填写其余内容。
总而言之,这看起来像是一个(乏味的)周末项目。我以前做过,它并不像听起来那么难。不过,这是一份大约 20 页的文件,而不是博士论文,所以一定要明智地选择你的战斗。我只能说祝你好运。
答案3
我把这个放在这里,是为了任何寻求未来保障的人——抱歉,除非你已经做过类似以下的事情,否则这无济于事——
有 LaTeX 包可用于将原始(或任何)文件包含/附加到您生成的 pdf 中。
我本来要把所有的信息都放在这里,但是作为一个新用户,当我写完时系统告诉我,我只能创建两个链接,所以这里是我在这次发布最初失败后在 TeXworks 邮件列表中发布的相同信息(在另一个讨论中)。
答案4
如果 PDF 主要为文本,您可以对文件运行 pdf2text 来提取原始文本。但您仍然需要手动插入所有 LaTeX 命令来获取格式。