对于一个研究项目,我想提取一页纯文本中相同字体的每一行排版图像。
我考虑过两种方法,当然都是黑客攻击,但我不介意黑客攻击:
使用 dvipng 并提取每行的图像:
可能很脆弱并且很难获得正确的行高。使用 dvips 并破解 PostScript 代码:
这似乎y
表示一个新行。
有没有简单、强大的解决方案?
如果有帮助的话,我完全控制 TeX 输入。
答案1
如何将每行设为单独的页面?也许有人可以展示如何让 TeX 跨分页符进行连字,就像对普通行进行连字一样。
\documentclass{article}
\usepackage[margin=0pt,paperheight=12pt,paperwidth=6.5in]{geometry}
\usepackage{kantlipsum}
\begin{document}
\kant
\end{document}
答案2
这将每页排版一行,产生如下输出
然后,例如,imagemagic convert 会将 pdf 转换为每页一个 png。
\documentclass{article}
\def\a{For a research project, I'd like to extract an image of each
typeset line in a page of plain text all in the same font. }
\def\b{\stepcounter{enumi}\roman{enumi}) \a\ifodd\value{enumi}\a\fi}
\def\c{\b\b Is there a simple, robust solution? Is there a simple, robust solution?
[\Roman{enumi}] \b\b}
\setlength\textheight{\baselineskip}
\setlength\topskip{0pt}
\setlength\topmargin{-1.1in}
\pdfpageheight60pt
\pagestyle{empty}
\interlinepenalty-10000
\clubpenalty-10000
\widowpenalty-10000
\begin{document}
\c\c\c\c\c
\end{document}