我为什么开始了一个新问题?
我研究了这里尽可能多的关于这个问题的答案,但没有一个能给出真正令人满意的答案。我想就这个问题展开新的讨论。
为什么那重要的?
如果我们真的相信 TeX/LaTeX 是排版之王,并想让其他人也相信这一点,那么如果您已经在另一个系统中进行了大量工作,就必须有某种转换途径。
我的具体问题摘要
我有一本部分编写的物理教科书,其中包含大量 Word 文档,其中包含数百张图形和数百个 MathType 方程式。转换为 TeX/LaTeX 后,我无法再使用 Word 工作,事实上,我的学习/工作笔记本电脑是一个微软免费实验,它也正在转变为 Adobe 免费,这是一个比较棘手的前景。我真的需要为这些文档找到一个转换解决方案。
问题
我想我应该指出,Mac 解决方案会更好,但我可以随时使用 Windows 机器。请记住,到目前为止,我已经在这个网站上对此进行了相当广泛的研究,有谁知道任何最新的解决方案吗?我相信理论上至少可以将包含样式、图形和 MathType 方程式的 Word 文档转换为合理的 .tex 文件,然后可能仍需要进行重大改进,但不需要进行大规模的根本性重写。
Word 的样式必须具有某种规范,至少可以部分转换为 LaTeX 样式。存在各种图形转换器。MathType 有一个将其公式转换为 LaTeX 的转换器。这三个组件结合起来肯定可以为重写大型文档提供至少一个不错的起点。
为什么这对我个人很重要
我的文本已经有 260 页 A4 纸了。凭借我作为 LaTex 用户所学到的与可读性研究相关的排版规则等知识,即使翻译完美,它们也必须重新组织成大约 400 页。这是因为每页的内容太多;每行的单词太多,方程式和图表的布局太复杂。
如果有一个解决方案至少能转换标题、段落样式、方程式和图形,让我重新构建页面并进行微调,那就太好了。
我很清楚自己的处境有多讽刺。我怎么能指望一个和我处境相似的人能想出一个解决方案来帮我解决麻烦呢?
结论
这不是最终结论。随着故事的发展,我会继续补充。到目前为止,结合 docx2tex 和 GraphicConverter 的解决方案可以让我获得图表,writer2latex 可以让我获得标题和正文。如果我让 MathParser 工作,那么我需要找到一个将 MathType 方程式从 Word 转换为 MathML 的实用程序。这将使我朝着有价值的转换迈出重要的一步。
因此,问题仍然是如何从 Word 文档中批量提取 MathType 方程式。我可以用 MathType 一次提取一个。奇怪的是,为什么 Design Science 在 LaTeX 导出方面做得这么差。他们的 MathML 导出看起来相当不错,所以如果我找到一个可以将 MathML 转换为 LaTeX 的有效转换器,那么一次提取一个方程式就不会太糟糕了。
然而,Word2TeX的商业解决方案证明这是可以做到的。
附录 2023 年 7 月 27 日
我想自从我上次在 2014 年更新它以来,人们对此就没有任何兴趣了。我还没有找到一个好的解决方案,所以我主要在书中进行复制和粘贴。不过我想,许多人仍然会继续通过 Microsoft Word 使用 LaTeX,所以它一定仍然有意义。那么,有人在此期间想出了什么办法吗?
答案1
答案在问题中逐渐积累。问题标题是从“最新”编辑为“2013”,但那个人可能没有注意到今年 1 月讨论仍然很活跃。我认为是时候将迄今为止积累的观点转化为答案了。然后,当有新的观点出现时,我会将它们添加到这里。我将致力于保持此主题的更新。明年我将将其更改为 2015 年,依此类推,添加任何新内容并删除任何冗余内容。
我已尝试过什么?
docx转tex:这在某些方面非常出色,但在其他方面却严重不足。我不是 Word 的低端用户,我使用样式以一致的方式构建我的文档。它提取所有文本并分隔标题,但没有格式。它提取所有图形,但在使用它们之前,我必须使用 GraphicConverter 批量转换为 pdf。我所有的 MathType 方程式都转换为图形。其他各种问题我暂时不会讨论。
从好的方面来说,如果我最终不得不从头开始,至少它提供了一个良好的起点,尽管还有很多工作要做。
数学类型:具有将方程式转换为 LaTeX 的功能,但非常笨重。它使用一组非常有限的数学环境。有大量不必要的括号层。而且你每次只能处理一个。
数学解析器:MathType 也能生成 MathML 输出。我以为如果我先将 MathType 转换为 MathML,那么使用 MathParser 转换结果可能会更好,但是我已经下载了 Java 小程序,得到的只是空白输出。
writer2latex:drat 的建议。我下载了 OpenOffice 并安装了 writer2latex 扩展。当它导入 Word 文件时,它会将 MathType 方程式导入为图形。它擅长导出标题和正文样式,但不擅长导出图形。
word2tex:这是 Harish Kumar 的建议。我下载了 30 天试用版,我不得不说,与我迄今为止看过的相比,这款应用非常棒。如果有人想尝试,请访问Chikrii 软实验室。下载 30 天试用版。它只能处理 1 个表格、1 张图片和 7 个方程式,但可以处理所有标题和正文。将您想要翻译的子集的 tex 文件放在一起,以最大化这一点,然后进行测试。它将包含多行的复杂方程式算作 1 个方程式。
如果我最终找不到合适的解决方案,我会考虑购买这个。它并不便宜。单个学术许可证的价格为 45 美元,这引出了一个问题,如果你是一名学者,后来用它来销售教科书,那么从技术上讲,你是否欠他们另外 44 美元?
答案2
我也经历过同样的情况。我将一本 200 页的书从 Word 转换为 Latex(实际上又转回来了——我无法决定我更喜欢哪种方法)。
那是几年前的事了,但我记得以下事情:
我使用了 Chikrii 软件或 grindeq,我不记得是哪个了。如果花 50 美元可以让我节省几个小时的工作时间,那么我就很高兴了。它给了我语法正确并且可以进行 TeX 编辑的方程式,但是,正如你所说,到处都是多余的括号,结果很难阅读和编辑。在某些情况下,我在 MathType 中编辑,而不是在文本编辑器中。
如果你不喜欢 MathType LateX 转换器,你知道吗,如果你愿意,你可以自己编写一个。请参阅这里了解详情。另一个选项是从 MathType 导出 MathML,然后使用您自己的代码进行处理,或者尝试找到 MathML 到 TeX 的转换器。