我们可以改变 (La)TeX 换行字符以便 Word 能够理解它吗?

我们可以改变 (La)TeX 换行字符以便 Word 能够理解它吗?

有时我需要向某人发送.doc我使用 LaTeX 制作的文件。但是当我将 (La)TeX 生成的 PDF 内容复制粘贴到 Word 中时,换行符被理解为段落字符 (¶)。我并不介意文件.doc未格式化,但每次都要在 Word 中修复文本,这很烦人,特别是因为实际的段落分隔符是未知的……

有没有办法替换 TeX 使用的换行符,以便在粘贴到 Word 中时文本能够“正确”粘贴?

如果问题还不够清楚,请编译以下文档:

\documentclass{article}
\usepackage{lipsum}
\begin{document}
\lipsum[0-5]
\end{document}

你应该得到 LaTeX PDF 输出

复制 PDF 内容并粘贴到 Word(如果有),结果是: 粘贴到 Word 中时...

应该只有五个 ¶ 因为只有五个段落......

答案1

如果阅读器需要识别“段落”之类的单位,则需要标记 pdf。没有它,它只能看到行。

例如,使用 lualatex 运行以下命令,并比较有无密钥activate-all

注意力!

tagpdf 是我为研究此类问题而编写的一个实验性软件包。它实际上并不适用于生产文档。它尚未完成,而且肯定会发生变化。因此,如果您使用它,则风险自负。

%! needs lualatex for the best result
\documentclass{book}

\usepackage[ngerman]{babel} %to get some hyphenation
\prehyphenchar`\^^ad % with luatex improves copying of hyphenated words (if the font has the soft hyphen). 
\usepackage{tagpdf}
\tagpdfsetup{tabsorder=structure,
             activate-all, %deactivate to see the difference
             uncompress
             }
\usepackage{lipsum}%

\pagestyle{empty}

\begin{document}
\tagstructbegin{tag=Document}
  \tagstructbegin{tag=P}
   \tagmcbegin{tag=P}
    \lipsum[1]
   \tagmcend
  \tagstructend
\tagstructend   
\end{document} 

未激活和激活标签的复制粘贴结果pdf

在此处输入图片描述

相关内容