是否有可能创建这样一个工具,允许将从 PDF 阅读器读取的文本保存到字符串中以便以后处理该文本?

是否有可能创建这样一个工具,允许将从 PDF 阅读器读取的文本保存到字符串中以便以后处理该文本?

Linux Mint 有一个 PDF 阅读工具,称为“Xreader”,随操作系统安装默认安装。

是否可以创建这样一个工具,允许在通过单击鼠标左键选择该文本时将正在读取的文本保存到 Bash 或 Python 字符串中,以便随后使用 Bash 和/或 Python 工具处理保存的文本? Linux Mint中有没有这样的“机制”可以用来实现这样的事情呢?

澄清。我尝试创建一个Python脚本,它可以处理从PDF阅读器(例如Xreader)中打开的PDF接收的一些文本,即

  1. 通过PDF阅读器打开PDF文件;
  2. 用鼠标光标选择一些感兴趣的文本;
  3. 作为获得文本但已经处理的结果,例如,删除不必要的空格并执行翻译;
  4. 并作为结果获得在附加图形窗口中映射的文本。

答案1

Ghostscript 可以从 PDF 文件中提取文本:

gs -sDEVICE=txtwrite -sOutputFile=myfile.txt -dBATCH -dNOPAUSE myfile.pdf

相关内容