在 pdf 文件中搜索特殊字符或短数学符号

在 pdf 文件中搜索特殊字符或短数学符号

我有 Adob​​e Reader、Okular 和 Document Viewer 作为 pdf 阅读器。我阅读的论文通常是带有数学公式的文本,由 LaTeX 生成。

但似乎使用这些查看器在 pdf 文件中搜索特殊字符或数学符号并不完美。我通常会从文件中选择关键部分(特殊字符或数学表达式),然后Ctrl+C,然后Ctrl+F,然后Ctrl+V,但遗憾的是,查看器突出显示的内容往往不正确。

我相信这对于查看器来说是一项重要的功能,并且确实需要在文档中查找不仅单词而且还特殊字符。

有人能告诉我你是如何解决这个问题的吗?有没有更好的 pdf 阅读器或任何智能的搜索方式?

答案1

您的问题可能没有通用的解决方案,尽管如果有那就太好了。

问题的核心在于,PDF 的设计目的是为了指定打印出来应该是什么样子能够在 PDF 中搜索公式可能不是主要关心的问题。所以问题不在于 Viewer;问题在于 PDF 没有以可访问的方式包含您要查找的信息。

例如,当公式中有一个 alpha (α) 时,可以将其编码为

  • 作为 Unicode 字符U+03B1
  • 用希腊字体简单表示a(我想到了 Windows 字体符号)
  • 或者它可能只是一个看起来像 alpha 但没有与之关联的 ASCII 或 Unicode 字符的适当的矢量图形。

在第一种情况下,您的解决方案可能有效,但在第二种情况下,搜索将在文本中的每个单个“a”处停止。在第三种情况下,搜索将一无所获,因为没有要搜索的文本。

问题变得更加困难当你搜索带索引的元素,例如$A_B^C。这需要以某种方式排版(B 在 A 下方,C 在 A 上方),但 PDF 创建者没有固定的规则来按什么顺序将这三个字符插入文本框;它甚至可以决定创建三个独立的文本框,或者决定公式的所有上部索引都放在前面,下部索引放在最后。

举个例子,这个公式$A_B^C = D^E_F$可以表示为

东亚开发数据库

或者

ABCDEF

或者

交流直流电压互感器

或 PDF 创建者喜欢的任何其他方式,只要位置每个字母的信息都是正确的,可以产生正确的公式。不用说,在第一种和第三种情况下,您将很难搜索“$A_B$”……

经过这么长时间的解释,你能做什么呢?

  • 不多
  • 尝试将 PDF 打印为 TIF,然后使用可以处理数学符号的工具对其进行 OCR
  • 游说论文作者发表预印本arxiv.org以及 LaTex 源,您可以更轻松地进行搜索
  • 游说 Adob​​e 在下一版 PDF 中添加一种“方程式支持”来解决该问题;当然,这需要在用于创建和修改 PDF 的工具中实现

答案2

好像http://www.bluebeam.com有一款产品可以在 PDF 中进行视觉符号搜索。您可以突出显示感兴趣的符号或公式,然后它会返回匹配的超链接列表。不,我不是公司的托儿 - 只是有同样的问题!谢谢

相关内容