我使用 latex 写作,但我经常需要与坚持使用 MS Word 的人合作。因此,我首先在 latex 中创建我的文档部分,然后将其转换为 MS-Word 并与其告别。这是一种蟑螂旅馆式的转换---它可以签入,但不会签出。请不要要求我转换我的合作者。我不能。我希望。但我不能。
现在,在过去,我看过https://www.tug.org/utilities/texconv/textopc.html但在那里找不到好的解决方案。我还研究了将 LaTeX 转换为 Open Office / MS Word 格式的工作流程这是一个良好的开端。
据我所知,对我而言,作为用户,最好的、最轻松、最省力的方法似乎是使用 OCR 处理 pdf 文件。它能够正确处理大部分所需的 MS-Word 格式。(我发现,将 ODT 临时转换为 ODT 不仅麻烦,而且效果不佳。)
唉,有一个奇怪的现象。我认为典型的 OCR 软件往往会忽略 pdftotext(来自 glyph&cog 的 poppler ubuntu 包)可以获得的信息。这是因为偶尔会有文字被错误识别。
是否有一个 OCR 程序可以在其扫描过程中使用 pdf 文件中的基于文本的信息?是否有人对自动化 latex -> pdf -> msword (OCR) 翻译的质量进行过系统的实验?
答案1
你最好的选择可能是潘多克,可以与 Microsoft Word(docx)和 LaTeX(以及其他格式)相互转换。
A样本文件例如
% This is a simple sample document. For more complicated documents take a look in the excersice tab. Note that everything that comes after a % symbol is treated as comment and ignored when the code is compiled.
\documentclass{article} % \documentclass{} is the first command in any LaTeX code. It is used to define what kind of document you are creating such as an article or a book, and begins the document preamble
\usepackage{amsmath} % \usepackage is a command that allows you to add functionality to your LaTeX code
\title{Simple Sample} % Sets article title
\author{My Name} % Sets authors name
\date{\today} % Sets date for date compiled
% The preamble ends with the command \begin{document}
\begin{document} % All begin commands must be paired with an end command somewhere
\maketitle % creates title using infromation in preamble (title, author, date)
\section{Hello World!} % creates a section
\textbf{Hello World!} Today I am learning \LaTeX. %notice how the command will end at the first non-alphabet charecter such as the . after \LaTeX
\LaTeX{} is a great program for writing math. I can write in line math such as $a^2+b^2=c^2$ %$ tells LaTexX to compile as math
. I can also give equations their own space:
\begin{equation} % Creates an equation environment and is compiled as math
\gamma^2+\theta^2=\omega^2
\end{equation}
If I do not leave any blank lines \LaTeX{} will continue this text without making it into a new paragraph. Notice how there was no indentation in the text after equation (1).
Also notice how even though I hit enter after that sentence and here $\downarrow$
\LaTeX{} formats the sentence without any break. Also look how it doesn't matter how many spaces I put between my words.
For a new paragraph I can leave a blank space in my code.
\end{document} % This is the end of the document
给出,与乳胶一起编译:
现在,如果你运行
pandoc document.tex -o document.docx
您将获得如下所示的 .docx 文档:
虽然并非所有内容都会被完美保存,但根据我的观点和经验,您将获得比使用 OCR 更好的结果。
您可以在以下位置找到更多示例https://pandoc.org/demos.html。
答案2
将 latex 文件转换为 msWord 文件的最佳方法是 latex --> pdf --> msWord。您需要注意使用的是 msWord 2013 或更高版本。这不会改变我的图形。但我丢失了超链接,并且弄乱了几个方程式。
为了避免重新编写混乱的公式,msWord 365 非常有用。您可以在 LaTeX 模式下使用 msWord 365 的公式编辑器。
我还有一个同事只用 msWord。经过多次尝试,我发现这是最好的方法。