Google 文档 > 中间格式 > Pandoc > ConTeXt

Google 文档 > 中间格式 > Pandoc > ConTeXt

我在 Google Docs 中有几十篇较长的文档(每篇 20 页左右),我想使用 ConTeXt 进行排版。我可以从 Google Docs 导出各种中间格式,包括 .docx、.odt、.pdf、.html 和 .rtf。然后 Pandoc 可以将导出的文件转换为 ConTeXt .tex 文件。

我的问题是,使用任何特定的中间格式来生成“更好”的 .tex 文件有什么好处吗?或者 Pandoc 是否会无论源格式如何都会生成相同的 .tex 文件?我对 ConTeXt 还很陌生 —— 请多多包涵!—— 所以我甚至不确定我所说的“更好”是什么意思,但至少它需要更少的调整或其他清理工作。

或者我可能做错了。就像我说的,我是 ConTeXt(以及整个 TeX/LaTeX 世界)的初学者。

如果重要的话,源文档都是文本,没有数学或图像,并且我需要保留的唯一格式是粗体/斜体和偶尔的脚注。

谢谢。


(6月29日下午12:12更新)

感谢 DG 提供的实验结果。我决定自己进行实验,更进一步,包括创建 PDF。

我在 Google Docs 中根据我的真实文档格式编写了一个 450 字的样本。它包括粗体、斜体、非拉丁语单词、重音符号和脚注。

我下载了各种格式的版本。

我首先感到惊讶的是下载文件的大小范围:从 929,734 (docx) 和 106,254 (rtf) 到 18,085 (odt)、7,759 (html) 和 4,441 (epub)。然后我使用 -s(独立)选项通过 pandoc 运行它们。文件大小最终都在 4-6k 范围内,除了 rtf 为 108k。这是一个可怕的开销!无论如何,rft 文件不会编译。

Pandoc 的 .tex 文件中只有两个保留了粗体或斜体标记——来自 odt 和 doxc 中介的文件。

ConTeXt 生成的 PDF 都有缺陷。所有 PDF 都能处理重音字符,处理希腊语也很好,但 tex 文件中希伯来语的位置只有一个空格。tex 文件中的三个连字符没有显示为破折号。在对齐过程中被分割的行末单词没有使用连字符。PDF 中似乎没有连字符。我对 ConTeXt 不够熟悉,不知道其中是否有可以修改的默认行为。

此时,对我来说最好的解决方案似乎是使用 odt 文件。LibreOffice 是我选择的文字处理器,它让我可以选择对 odt 或 tex 文件进行任何编辑。(此外,我喜欢开源。)但我仍然想知道为什么 ConTeXt 中的 PDF 创建过程无法正确呈现此代码: {\em italics}, {\bf bold}, {\em {\bf bold italics}}

答案1

我很好奇,并测试了 html、epub 和 docx,结果发现 docx to context 是赢家。

示例文档

我在 google docs 中创建了以下文档并将其导出为 html、epub 和 docx。

在此处输入图片描述

html 到上下文

pandoc Test.html -t context -o Test.html.tex

结果是:

This is a sample document

There is italic text and~there is~bold text and maybe~bold italic text.
Also there is the occasional footnote.\high{\goto{{[}1{]}}[ftnt1]}

This will go on for twenty pages or so\ldots{}

\thinrule

\goto{{[}1{]}}[ftnt_ref1]~This is footnote~text.

可以看到 html 丢失了大胆的斜体并且脚注也不太合适。

epub 到上下文

同样的格式损失和引用尴尬也适用于 epub。

pandoc Test.epub -t context -o Test.epub.tex

结果是:

This is a sample document

There is italic text and ~there is ~bold text and maybe ~ bold italic
text. Also there is the occasional footnote.
\high{\goto{{[}1{]}}[Test.xhtmlux5cux23ftnt1]}

This will go on for twenty pages or so\ldots{}

\thinrule

\goto{{[}1{]}}[Test.xhtmlux5cux23ftnt_ref1] ~This is footnote ~ text.

docx 到上下文

另一方面,docx-reader和的组合context-writer产生了不错的代码。

pandoc Test.docx -t context -o Test.docx.tex

结果是:

{\bf This is a sample document}

There is {\em italic text} and there is {\bf bold text} and maybe
{\em {\bf bold italic text.}} Also there is the occasional
footnote.\footnote{This is {\em footnote} {\bf text.}}

This will go on for twenty pages or so...

相关内容