仅从论文中提取文本

仅从论文中提取文本

问题将指定环境中的文本内容提取到新文件中(以及其中的答案)涉及使用该extract包生成包含指定环境中的所有文本的 LaTeX 文件。

我的问题是是否可以反过来做?我不得不与 Microsoft Word 用户合作。由于 Word 的稳定性问题,我们通常维护一个.docx包含论文(或在本例中是我的论文)所有文本的文件和一个包含所有图表和标题的文件。一些期刊也要求采用这种方法。该endfloat软件包通过将图表放在生成的 PDF 的末尾来实现部分功能。我在使用TeX4ht或时遇到了麻烦,latex2rtf因为我的所有图表都是 PDF。PDF 格式的图表与 配合得很好pdftex,我用它来生成 PDF 文件。

作为一名化学家,我使用了很多上标和下标,尤其是在使用mhchem软件包时。我希望如果我可以将文本转换为 HTML 或 RTF,则可以将其导入 Word,而不必重新执行文本中的每个下标和上标。我尝试使用软件包将所有命令放置\includegraphics在注释环境中(如下textonly所示)comment

\begin{figure}
\begin{textonly}
\centering
\includegraphics{figurefile}
\end{textonly}
\label{fig:figure}
\end{figure}

这种方法破坏了我对图形的所有引用(\ref{fig:figure}) - 它们排版为??

找到一种方法将 LaTeX 代码编译成更适合 Word 的格式是可行的方法,还是转换生成的 PDF 是pdftex最好的方法?我发现我必须手动修复下标和上标才能被 Word 识别。此外,所有的\refs 都在最终输出的 PDF 中起作用,而这在拆分文件方法中可能会成为问题。

答案1

有很多选择,但是涉及 HTML/XML 的路线比涉及 RTF 的路线更好。

Word 2007 及更高版本允许您.docx使用 CSS 将文件保存为 HTML 文件(因为 Word 2003 允许您将文件保存.doc为非常糟糕的 HTML)。输出并不美观,但使用潘多克将此 HTML 转换为 Markdown 是可能的。

我已经这样做了,但那是很久以前的事了,我不记得当时遇到了什么麻烦——当我有更多时间时,我会尝试一下。

答案2

对于本文的文本,我最终编写了一个 word (2003) 宏来读取 .tex 文件。它可以处理文本模式的下标和上标,以及我自己的一些简单宏,并应用一些基本的格式等。\section但是数学模式完全不行,表格也不行。如果图像以 .png 格式存在,则会自动导入(首先使用 imagemagick)。

这里的用例是协作撰写论文文本,允许使用 Word 的注释和跟踪更改工具。

它更像是 MWE 的精神,而不是一个精致的工具,但欢迎您试用。在上传之前,需要做一些工作(将其与一些个人物品分开),所以如果(任何人)想看的话请告诉我。

相关内容