如何将图像文件转换并合并为 pdf 文件？

Question 1

也许是一个远景，但我使用pdflatex.我创建一个以下样式的文件（带有脚本或其他内容）：

\documentclass{report}
\usepackage{graphicx}
\begin{document}
\includegraphics[width=0.95\textwidth]{img000}\par
\includegraphics[width=0.95\textwidth]{img001}\par

[...]

\includegraphics[width=0.95\textwidth]{img200}\par
\end{document}

然后用运行它pdflatex file。构图速度很快（而且你可以轻松地——如果你了解 LaTeX——改变图像的形状和位置，添加标题等......）

问题是该文件通常很大；我用 500K+ 的 200 张 jpg 进行了测试——在我的 i5/16G 内存上运行大约需要 7 秒，并给出了 800Mbyte 的 PDF。我试图通过使用来减小它的大小

gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dQUIET -dBATCH -sOutputFile=lowres.pdf file.pdf

...它已经运行了 8 分钟，但没有使用大量 RAM。我无法评论压缩，因为gs它比我聪明，发现我使用同一张图像 200 次，因此将其压缩为 50k PDF……这显然不是真实的。

Answer

也许是一个远景，但我使用pdflatex.我创建一个以下样式的文件（带有脚本或其他内容）：

\documentclass{report}
\usepackage{graphicx}
\begin{document}
\includegraphics[width=0.95\textwidth]{img000}\par
\includegraphics[width=0.95\textwidth]{img001}\par

[...]

\includegraphics[width=0.95\textwidth]{img200}\par
\end{document}

然后用运行它pdflatex file。构图速度很快（而且你可以轻松地——如果你了解 LaTeX——改变图像的形状和位置，添加标题等......）

问题是该文件通常很大；我用 500K+ 的 200 张 jpg 进行了测试——在我的 i5/16G 内存上运行大约需要 7 秒，并给出了 800Mbyte 的 PDF。我试图通过使用来减小它的大小

gs -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -dPDFSETTINGS=/screen -dNOPAUSE -dQUIET -dBATCH -sOutputFile=lowres.pdf file.pdf

...它已经运行了 8 分钟，但没有使用大量 RAM。我无法评论压缩，因为gs它比我聪明，发现我使用同一张图像 200 次，因此将其压缩为 50k PDF……这显然不是真实的。

Question 2

很遗憾convert更改之前的图像，以便将jpg您需要使用的原始图像的质量损失降到最低img2pdf，我使用以下命令：

一种较短的单衬管解决方案，也仅使用img2pdf特征

制作PDF

img2pdf *.jp* --output combined.pdf
OCR 输出 PDF

ocrmypdf combined.pdf combined_ocr.pdf

这是原始命令，需要更多命令和更多工具：

1) 这是为了将pdf每个jpg图像创建一个文件，而不会损失分辨率或质量：

ls -1 ./*jpg | xargs -L1 -I {} img2pdf {} -o {}.pdf

2）这将pdf页面连接成一个：

pdftk *.pdf cat output combined.pdf

3）最后我添加了一个OCRed文本层，它不会改变pdf中的扫描质量，因此它们可以被搜索：

pypdfocr combined.pdf

Answer