无法使用 ebook-convert 从 XeLaTeX 生成的 PDF 中提取天城文

无法使用 ebook-convert 从 XeLaTeX 生成的 PDF 中提取天城文

我在 Debian Bullseye 中使用 TeXLive 2020。我使用包含 Devanagari 字符的 XeLaTeX 生成了一个 PDF 文档。通过使用选项\XeTeXgenerateactualtext=1,我能够将 XeLaTeX 生成的 PDF 中的 Devanagari 文本复制到支持 Unicode 的文本编辑器中。

但是当我使用ebook-convert将其转换为纯文本文件时

ebook-convert test.pdf test.txt

我无法恢复原始的天城文字符。

编辑:修改后的MWE如下:

\documentclass[12pt]{article}
\usepackage{polyglossia} %supports Unicode; compulsory
\setdefaultlanguage{english}
\setmainfont{Gentium Basic} %Unicode English font; any other font can be used as well. 
\setotherlanguage{sanskrit}
\newfontfamily{\dev}[Script=Devanagari, Mapping=RomDev]{Shobhika}

\begin{document}
\XeTeXgenerateactualtext=1

    \textit{Plain Unicode Diacritical Text:} dhṛtarāṣṭra uvāca \\ 
    \textit{Plain Unicode Devanagari text:} {\dev धृतराष्ट्र उवाच} \\ 
    \textit{Devanagari text generated from RomDev.tec:} {\dev dhṛtarāṣṭra uvāca}
    
\end{document}

我有许多 XeLaTeX 生成的 PDF,其中包含梵文字符,我想将它们转换为纯文本文档(使用 CLI 而不是复制粘贴)以供进一步使用,但我无法这样做。请帮帮我。

问候。

答案1

如果我添加\documentclass{article}到您的片段并通过 xelatex 运行,那么该pdftotext实用程序(在 debian 中可用。虽然我在这里使用 cygwin)会生成以下文本文件,我认为可以(虽然我无法读取文本所以我希望这没有遗漏任何内容)

ŚB 1.8.18
किमकुर्वत सञ्जय

1



分页符处的末尾的控制字符是 control-L。

因此命令序列很简单

xelatex myfile

pdftotext myfile.pdf

留下myfile.txt纯文本版本。

相关内容