我正在尝试将 Word 文档中的一些文本读入我的 LaTex 文件中。我只想要没有数学或格式的纯文本。
我尝试使用 \input{} 但它不能识别所有 utf 字符:
Package inputenc: Unicode character (U+0003)
(inputenc) not set up for use with LaTeX.
Text line contains an invalid character.
PK
\documentclass[ngerman, fontsize=12pt]{scrbook}
\usepackage[ngerman]{babel}
\usepackage[T1]{fontenc}
\usepackage[utf8]{inputenc}
\usepackage{lmodern}
\usepackage{amsmath}
\usepackage{amsfonts}
\usepackage{amssymb}
\usepackage[hidelinks]{hyperref}
\usepackage[baselinestretch,linenumbers,lines=30,chars=60,noindent]{stdpage}
\begin{document}
\input{test.docx}
\end{document}
答案1
文件.docx
实际上是一个二进制文件,更准确地说是一个包含多个当场压缩/解压的文件的 ZIP 档案。
例如,如果我从命令行界面执行
file /usr/local/texlive/2020/texmf-dist/doc/fonts/tex-gyre-math/test-word-texgyre_termes_math.docx
unzip -l /usr/local/texlive/2020/texmf-dist/doc/fonts/tex-gyre-math/test-word-texgyre_termes_math.docx
只是为了检查 TeX Live 中包含的文件,我得到了
/usr/local/texlive/2020/texmf-dist/doc/fonts/tex-gyre-math/test-word-texgyre_termes_math.docx: Microsoft Word 2007+
Archive: /usr/local/texlive/2020/texmf-dist/doc/fonts/tex-gyre-math/test-word-texgyre_termes_math.docx
Length Date Time Name
--------- ---------- ----- ----
1554 01-01-1980 00:00 [Content_Types].xml
590 01-01-1980 00:00 _rels/.rels
1290 01-01-1980 00:00 word/_rels/document.xml.rels
63800 01-01-1980 00:00 word/document.xml
7105 01-01-1980 00:00 word/theme/theme1.xml
3222 01-01-1980 00:00 word/settings.xml
17027 01-01-1980 00:00 word/stylesWithEffects.xml
296 01-01-1980 00:00 customXml/_rels/item1.xml.rels
16274 01-01-1980 00:00 word/styles.xml
341 01-01-1980 00:00 customXml/itemProps1.xml
631 01-01-1980 00:00 docProps/core.xml
218 01-01-1980 00:00 customXml/item1.xml
2218 01-01-1980 00:00 word/fontTable.xml
428 01-01-1980 00:00 word/webSettings.xml
998 01-01-1980 00:00 docProps/app.xml
--------- -------
115992 15 files
文档文本位于这些.xml
文件中的某个位置,确切地说是在 中document.xml
,但无法以直接的方式在 TeX 中输入。我尝试使用仅包含以下内容的文件,并且从文件abcdef
中摘录了一小段内容document.xml
<w:body>
<w:p w14:paraId="47EF316A" w14:textId="128C1C44" w:rsidR="004807B4" w:rsidRPr="004807B4" w:rsidRDefault="004807B4">
<w:pPr>
<w:rPr>
<w:lang w:val="en-US"/>
</w:rPr>
</w:pPr>
<w:r>
<w:rPr>
<w:lang w:val="en-US"/>
</w:rPr>
<w:t>
abcdef
</w:t>
</w:r>
</w:p>
<w:sectPr w:rsidR="004807B4" w:rsidRPr="004807B4">
<w:pgSz w:w="11906" w:h="16838"/>
<w:pgMar w:top="1440" w:right="1440" w:bottom="1440" w:left="1440" w:header="708" w:footer="708" w:gutter="0"/>
<w:cols w:space="708"/>
<w:docGrid w:linePitch="360"/>
</w:sectPr>
</w:body>
将您的文档保存为“纯文本”。这样它就是一个纯文本文件,您可以输入它。