我处理过大量 OCRed 文本,几乎总是有一些符号需要转义/标记才能在 Latex 中正确解释。例如符号&
。
我希望能够看到输出(pdf),而不必修复所有错误。
是否可以让 xelatex 忽略所有有问题的标记/单词并继续仅使用正确的标记排版文档?
答案1
当阅读纯文本时你可以使所有字符都正常
如果你的纯 OCR 文本在 foo.txt 中,那么
{\lowercase{
\catcode`\&=12
\catcode`\%=12
\cactcode`\\=12
\catcode`\~=12
\catcode`\_=12
\catcode`\^=12
\catcode`\{=12
\catcode`\}=12
}
\input{foo.txt}
}
}
将以 even 形式输入文件\
,文件末尾将恢复正常的 tex 规则。