PDF 的 Google Mini 搜索优化

PDF 的 Google Mini 搜索优化

就其本身而言,我已经让它工作了,但也许我选择了错误的工具来完成这项工作。

基本上,我们拥有大量与我们的行业相关的书籍的电子版。

我想要做的是创建这些书籍的可搜索索引。

不幸的是,许多书籍都超过了 30MB 的文件大小索引限制,因此它们甚至没有被索引。(我认为有一个配置可以改变这种情况?)

但是,对于那些确实有 PDF 的文档,我可以搜索、找到它们并直接链接到它们...但是单击链接后,会下载整个 PDF,并且会从第一页开始显示 PDF,而不是从找到搜索词的页面显示。

关于如何完成这个项目,您有什么建议或意见吗?我完全接受...

我认为第一个问题是“我是否应该尝试调整材料/谷歌迷你以适应这种场景?”如果是这样,“哪种方法最好?”

答案1

我可能不会采用 Google Mini 的方法,而是考虑在线获取一些内容管理软件。我个人喜欢 Alfresco 社区版。不过,对于您的应用程序来说,它可能有点太高端了。

答案2

不确定这个答案是否对你有帮助。但事实是这样的:

Acrobat Pro 和 Acrobat Reader(甚至在 Linux 上)确实提供了一些“PDF 打开命令行参数”。这些参数控制着文档的打开方式(打开哪一页、哪个缩放级别等)。

支持的功能之一是打开 PDF 时搜索对话框打开,并且匹配的搜索词已经可点击。示例:

Windows 上的 Acrobat 和 Acrobat Professional:

 acrobat.exe ^
   /a #search="superuser basketball supermodels" ^
   "d:\path\to\example.pdf"

Windows 上的 Acrobat Reader:

 acrord32.exe ^
   /a #search="PDF computing searching" ^
   "d:\path\to\example.pdf"

Linux 上的 Acrobat Reader:*

 acroread \
   /a #search="stackexchange football girls" \
   "/path/to/example.pdf"

在 Adob​​e 网站上,搜索“PDF 打开参数”以找到描述此功能的所有详细信息的 PDF 手册......

答案3

我的解决方案是将 PDF 拆分成单独的页面。这对我来说很有效,因为我正在搜索和提供参考资料,例如词典。

如果用户想知道“apple”的定义,那么搜索 apple 将返回包含单词 apple 及其定义的单个 PDF 页面。这就是用户想知道的全部内容。

如果段落跨越多页,这种方法效果就不太好 - 但只要您的 PDF 保持在 2.5MB 以下,您就可以将任意数量的页面“打包”成一个 PDF。

相关内容