从 Word 输入纯文本到 LaTex

从 Word 输入纯文本到 LaTex

我正在尝试将 Word 文档中的一些文本读入我的 LaTex 文件中。我只想要没有数学或格式的纯文本。

我尝试使用 \input{} 但它不能识别所有 utf 字符:

Package inputenc: Unicode character  (U+0003)
(inputenc)  not set up for use with LaTeX.
Text line contains an invalid character.
PK
\documentclass[ngerman, fontsize=12pt]{scrbook}

\usepackage[ngerman]{babel}
\usepackage[T1]{fontenc}
\usepackage[utf8]{inputenc}
\usepackage{lmodern}
\usepackage{amsmath}
\usepackage{amsfonts}
\usepackage{amssymb}
\usepackage[hidelinks]{hyperref}

\usepackage[baselinestretch,linenumbers,lines=30,chars=60,noindent]{stdpage}   


\begin{document}

    \input{test.docx}

\end{document}

答案1

文件.docx实际上是一个二进制文件,更准确地说是一个包含多个当场压缩/解压的文件的 ZIP 档案。

例如,如果我从命令行界面执行

file /usr/local/texlive/2020/texmf-dist/doc/fonts/tex-gyre-math/test-word-texgyre_termes_math.docx
unzip -l /usr/local/texlive/2020/texmf-dist/doc/fonts/tex-gyre-math/test-word-texgyre_termes_math.docx

只是为了检查 TeX Live 中包含的文件,我得到了

/usr/local/texlive/2020/texmf-dist/doc/fonts/tex-gyre-math/test-word-texgyre_termes_math.docx: Microsoft Word 2007+

Archive:  /usr/local/texlive/2020/texmf-dist/doc/fonts/tex-gyre-math/test-word-texgyre_termes_math.docx
  Length      Date    Time    Name
---------  ---------- -----   ----
     1554  01-01-1980 00:00   [Content_Types].xml
      590  01-01-1980 00:00   _rels/.rels
     1290  01-01-1980 00:00   word/_rels/document.xml.rels
    63800  01-01-1980 00:00   word/document.xml
     7105  01-01-1980 00:00   word/theme/theme1.xml
     3222  01-01-1980 00:00   word/settings.xml
    17027  01-01-1980 00:00   word/stylesWithEffects.xml
      296  01-01-1980 00:00   customXml/_rels/item1.xml.rels
    16274  01-01-1980 00:00   word/styles.xml
      341  01-01-1980 00:00   customXml/itemProps1.xml
      631  01-01-1980 00:00   docProps/core.xml
      218  01-01-1980 00:00   customXml/item1.xml
     2218  01-01-1980 00:00   word/fontTable.xml
      428  01-01-1980 00:00   word/webSettings.xml
      998  01-01-1980 00:00   docProps/app.xml
---------                     -------
   115992                     15 files

文档文本位于这些.xml文件中的某个位置,确切地说是在 中document.xml,但无法以直接的方式在 TeX 中输入。我尝试使用仅包含以下内容的文件,并且从文件abcdef中摘录了一小段内容document.xml

<w:body>
  <w:p w14:paraId="47EF316A" w14:textId="128C1C44" w:rsidR="004807B4" w:rsidRPr="004807B4" w:rsidRDefault="004807B4">
    <w:pPr>
      <w:rPr>
        <w:lang w:val="en-US"/>
      </w:rPr>
    </w:pPr>
    <w:r>
      <w:rPr>
        <w:lang w:val="en-US"/>
      </w:rPr>
      <w:t>
        abcdef
      </w:t>
    </w:r>
  </w:p>
  <w:sectPr w:rsidR="004807B4" w:rsidRPr="004807B4">
    <w:pgSz w:w="11906" w:h="16838"/>
    <w:pgMar w:top="1440" w:right="1440" w:bottom="1440" w:left="1440" w:header="708" w:footer="708" w:gutter="0"/>
    <w:cols w:space="708"/>
    <w:docGrid w:linePitch="360"/>
  </w:sectPr>
</w:body>

将您的文档保存为“纯文本”。这样它就是一个纯文本文件,您可以输入它。

相关内容