我在 Debian Bullseye 中使用 TeXLive 2020。我使用包含 Devanagari 字符的 XeLaTeX 生成了一个 PDF 文档。通过使用选项\XeTeXgenerateactualtext=1
,我能够将 XeLaTeX 生成的 PDF 中的 Devanagari 文本复制到支持 Unicode 的文本编辑器中。
但是当我使用ebook-convert
将其转换为纯文本文件时
ebook-convert test.pdf test.txt
我无法恢复原始的天城文字符。
编辑:修改后的MWE如下:
\documentclass[12pt]{article}
\usepackage{polyglossia} %supports Unicode; compulsory
\setdefaultlanguage{english}
\setmainfont{Gentium Basic} %Unicode English font; any other font can be used as well.
\setotherlanguage{sanskrit}
\newfontfamily{\dev}[Script=Devanagari, Mapping=RomDev]{Shobhika}
\begin{document}
\XeTeXgenerateactualtext=1
\textit{Plain Unicode Diacritical Text:} dhṛtarāṣṭra uvāca \\
\textit{Plain Unicode Devanagari text:} {\dev धृतराष्ट्र उवाच} \\
\textit{Devanagari text generated from RomDev.tec:} {\dev dhṛtarāṣṭra uvāca}
\end{document}
我有许多 XeLaTeX 生成的 PDF,其中包含梵文字符,我想将它们转换为纯文本文档(使用 CLI 而不是复制粘贴)以供进一步使用,但我无法这样做。请帮帮我。
问候。
答案1
如果我添加\documentclass{article}
到您的片段并通过 xelatex 运行,那么该pdftotext
实用程序(在 debian 中可用。虽然我在这里使用 cygwin)会生成以下文本文件,我认为可以(虽然我无法读取文本所以我希望这没有遗漏任何内容)
ŚB 1.8.18
किमकुर्वत सञ्जय
1
分页符处的末尾的控制字符是 control-L。
因此命令序列很简单
xelatex myfile
pdftotext myfile.pdf
留下myfile.txt
纯文本版本。