在包含图像的页面上无法选择 Ghostscript 文本

在包含图像的页面上无法选择 Ghostscript 文本

正常编译后,我使用以下ghostscript命令处理 PDF 文件,以生成(希望)符合 PDF/A 标准的文件。

gs -dPDFA
   -sDEVICE=pdfwrite
   -dPDFACompatibilityPolicy=1
   -dPrinted=false
   -dPDFSETTINGS=/printer
   -dSAFER
   -dNOPAUSE
   -dQUIET
   -dBATCH
   -dNOOUTERSAVE 
   -sColorConversionStrategy=UseDeviceIndependentColor
   -sProcessColorModel=DeviceRGB
   -sOutputFile=thesis.pdf
   main.pdf pdfmarks

这基本上是可行的(我的 PDF 查看器中有一个工作大纲,超链接现在也可以工作了),除了一件事。几乎所有页面上的文本都是可选择和可复制的,除了包含图像的页面。图像是另一个 PDF 还是 PNG 并不重要。不过,Tikz 图片和 MetaFont 图像没问题。

我尝试了不同的命令PDFSETTINGS/prepress并且在此命令的早期迭代中也没有使用-dSAFER-dPrinted=false

原始 PDF 文件是用 编译的pdflatex,如果有任何区别的话。

这个问题很难研究,因为几乎所有的 ghostscript 文档都包含“文本”和“图像”这两个词。

答案1

我会尽力直接使用pdflatex或创建符合 PDF/A 标准的 PDF lualatex。这将直接为您提供有效的 PDF/A:

\documentclass{article}

\usepackage[pdfa]{hyperref}
\usepackage{hyperxmp}[2020/03/01]

\author{me,him}
\title{How to create a PDF/A-1b document}

\immediate\pdfobj stream attr{/N 3} file{sRGB.icc}
\pdfcatalog{%
  /OutputIntents [ <<
    /Type /OutputIntent
    /S /GTS_PDFA1
      /DestOutputProfile \the\pdflastobj\space 0 R
    /OutputConditionIdentifier (sRGB IEC61966-2.1)
    /Info(sRGB IEC61966-2.1)
  >> ]
}

\begin{document}

lorem ipsum \url{http://stackexchange.com/}

\end{document}

此示例在 Acrobat DC 中验证verapdf 1.14.8 均使用 LuaLaTeX 和 pdfLaTeX 以及最新的软件包进行编译。
飞行前验证结果
看起来 Graipher 的字体设置不太好。

如果您希望稍后添加图像,我建议您添加已经验证 pdf/a 的 pdf。嵌入颜色配置文件的 Jpg 图像可以工作,但某些验证器要求嵌入图像元数据符合 PDF/A 标准。如果没有 Acrobat Pro,这很难实现。使用 Ghostscript 时也会遇到这个问题。PNG 不起作用,因为它们不提供嵌入的颜色配置文件。

答案2

我遇到了类似的问题,通过更改为 ,我解决了该-dCompatibilityLevel=1.4 问题-dCompatibilityLevel=1.3

但不知道为什么。

相关内容