当我将 PDF 转换为纯文本时,文本变得混乱

当我将 PDF 转换为纯文本时,文本变得混乱

当我将用 MiKTeX 创建的 PDF 转换为纯文本时,所有变音符号都出现在错误的位置。我需要将我的论文发送到在线反剽窃检查页面。

例子:

pr´ce a diskusia mˆˇu tvorit aj jednu yyya oz samostatn´ ˇast a spoloˇne

我该如何修复它?

好的,这里有一些有效的例子:

\documentclass[12pt, oneside]{book}
\usepackage[T1]{fontenc} % <---- Like this?
\usepackage[utf8]{inputenc}
\usepackage{graphicx}
\usepackage[slovak]{babel}
\linespread{1.2}

\begin{document}     
ľščťžýáíéäúôň %these are some misbehave characters 
\end{document}

答案1

我已经使用glyphtounicodeTeX Live 中的支持文件(甚至带有捷克语/斯洛伐克语相关的 IL2 字体编码)一段时间了,遗憾的是我无法使用 MiKTeX 对其进行测试。我们运行:

pdflatex mal-sk.tex
pdftotext -enc UTF-8 mal-sk.pdf

结果是:1 ľščťžýáíéäúôň,它显示了页码和文档内容。我附上了代码。如果它符合您的需求,请尝试一下。

% pdflatex mal-sk.tex
% pdftotext -enc UTF-8 mal-sk.pdf
\documentclass[12pt, oneside]{book}
\usepackage[T1]{fontenc}
\usepackage[utf8]{inputenc}
\usepackage{graphicx}
\usepackage[slovak]{babel}
\linespread{1.2}
\input glyphtounicode
\pdfgentounicode=1
\begin{document}     
ľščťžýáíéäúôň
\end{document}

相关内容