latex 到 word?--- OCR?

latex 到 word?--- OCR?

我使用 latex 写作,但我经常需要与坚持使用 MS Word 的人合作。因此,我首先在 latex 中创建我的文档部分,然后将其转换为 MS-Word 并与其告别。这是一种蟑螂旅馆式的转换---它可以签入,但不会签出。请不要要求我转换我的合作者。我不能。我希望。但我不能。

现在,在过去,我看过https://www.tug.org/utilities/texconv/textopc.html但在那里找不到好的解决方案。我还研究了将 LaTeX 转换为 Open Office / MS Word 格式的工作流程这是一个良好的开端。

据我所知,对我而言,作为用户,最好的、最轻松、最省力的方法似乎是使用 OCR 处理 pdf 文件。它能够正确处理大部分所需的 MS-Word 格式。(我发现,将 ODT 临时转换为 ODT 不仅麻烦,而且效果不佳。)

唉,有一个奇怪的现象。我认为典型的 OCR 软件往往会忽略 pdftotext(来自 glyph&cog 的 poppler ubuntu 包)可以获得的信息。这是因为偶尔会有文字被错误识别。

是否有一个 OCR 程序可以在其扫描过程中使用 pdf 文件中的基于文本的信息?是否有人对自动化 latex -> pdf -> msword (OCR) 翻译的质量进行过系统的实验?

答案1

你最好的选择可能是潘多克,可以与 Microsoft Word(docx)和 LaTeX(以及其他格式)相互转换。

A样本文件例如

% This is a simple sample document.  For more complicated documents take a look in the excersice tab. Note that everything that comes after a % symbol is treated as comment and ignored when the code is compiled.

\documentclass{article} % \documentclass{} is the first command in any LaTeX code.  It is used to define what kind of document you are creating such as an article or a book, and begins the document preamble

\usepackage{amsmath} % \usepackage is a command that allows you to add functionality to your LaTeX code

\title{Simple Sample} % Sets article title
\author{My Name} % Sets authors name
\date{\today} % Sets date for date compiled

% The preamble ends with the command \begin{document}
\begin{document} % All begin commands must be paired with an end command somewhere
    \maketitle % creates title using infromation in preamble (title, author, date)
    
    \section{Hello World!} % creates a section
    
    \textbf{Hello World!} Today I am learning \LaTeX. %notice how the command will end at the first non-alphabet charecter such as the . after \LaTeX
     \LaTeX{} is a great program for writing math. I can write in line math such as $a^2+b^2=c^2$ %$ tells LaTexX to compile as math
     . I can also give equations their own space: 
    \begin{equation} % Creates an equation environment and is compiled as math
    \gamma^2+\theta^2=\omega^2
    \end{equation}
    If I do not leave any blank lines \LaTeX{} will continue  this text without making it into a new paragraph.  Notice how there was no indentation in the text after equation (1).  
    Also notice how even though I hit enter after that sentence and here $\downarrow$
     \LaTeX{} formats the sentence without any break.  Also   look  how      it   doesn't     matter          how    many  spaces     I put     between       my    words.
    
    For a new paragraph I can leave a blank space in my code. 

\end{document} % This is the end of the document

给出,与乳胶一起编译:

在此处输入图片描述

现在,如果你运行

pandoc document.tex -o document.docx

您将获得如下所示的 .docx 文档:

在此处输入图片描述

虽然并非所有内容都会被完美保存,但根据我的观点和经验,您将获得比使用 OCR 更好的结果。

您可以在以下位置找到更多示例https://pandoc.org/demos.html

答案2

将 latex 文件转换为 msWord 文件的最佳方法是 latex --> pdf --> msWord。您需要注意使用的是 msWord 2013 或更高版本。这不会改变我的图形。但我丢失了超链接,并且弄乱了几个方程式。

为了避免重新编写混乱的公式,msWord 365 非常有用。您可以在 LaTeX 模式下使用 msWord 365 的公式编辑器。

我还有一个同事只用 msWord。经过多次尝试,我发现这是最好的方法。

相关内容