提取排版行

提取排版行

对于一个研究项目,我想提取一页纯文本中相同字体的每一行排版图像。

我考虑过两种方法,当然都是黑客攻击,但我不介意黑客攻击:

  • 使用 dvipng 并提取每行的图像:
    可能很脆弱并且很难获得正确的行高。

  • 使用 dvips 并破解 PostScript 代码:
    这似乎y表示一个新行。

有没有简单、强大的解决方案?

如果有帮助的话,我完全控制 TeX 输入。

答案1

如何将每行设为单独的页面?也许有人可以展示如何让 TeX 跨分页符进行连字,就像对普通行进行连字一样。

\documentclass{article}
\usepackage[margin=0pt,paperheight=12pt,paperwidth=6.5in]{geometry}
\usepackage{kantlipsum}
\begin{document}
\kant
\end{document}

在此处输入图片描述

答案2

这将每页排版一行,产生如下输出

在此处输入图片描述

然后,例如,imagemagic convert 会将 pdf 转换为每页一个 png。

\documentclass{article}

\def\a{For a research project, I'd like to extract an image of each
  typeset line in a page of plain text all in the same font. }
\def\b{\stepcounter{enumi}\roman{enumi}) \a\ifodd\value{enumi}\a\fi}
\def\c{\b\b Is there a simple, robust solution? Is there a simple, robust solution?
[\Roman{enumi}] \b\b}

\setlength\textheight{\baselineskip}
\setlength\topskip{0pt}
\setlength\topmargin{-1.1in}
\pdfpageheight60pt
\pagestyle{empty}
\interlinepenalty-10000
\clubpenalty-10000
\widowpenalty-10000
\begin{document}

\c\c\c\c\c

\end{document}

相关内容