用于 PDF 文档存储和基于搜索的检索的简单开源解决方案

用于 PDF 文档存储和基于搜索的检索的简单开源解决方案

我所在的是一家小型住宅管理公司,公司有很多文件,我想将它们数字化为 PDF 并放到网上供所有居民查看。许多人不懂技术,所以简单易用的东西必不可少。

我有能力设置基于 LAMP 的服务器解决方案,尽管这种解决方案的购买和维护成本不会很高,因此是开源的,最好是占用内存较少的解决方案。不过,到目前为止,我所研究过的所有解决方案(例如 Alfresco、KnowledgeTree 和 LogicalDOC)似乎都过于复杂,而且无论是设置还是用户使用都很复杂。

我考虑过类似 AjaxExplorer 的东西,它似乎可以出色地完成我想要的文件浏览部分。就全文搜索而言,是否有可以与 AjaxExplorer 配合使用的产品,或者可以与其配合使用的其他产品,人们会推荐它作为相对易于配置的工具,用于索引和随后搜索文档存储库?

如果没有合适的集成解决方案,那么在前端设立单独的区域来浏览文件树、通过文件名/元数据进行简单搜索和全文搜索是可以接受的(正如我所怀疑的)。

答案1

就我个人而言,我只会使用 Apache 的常规发行版(不包含 PHP),然后添加一个过滤器来仅提供 .pdf 文档:

有很多不同的方法可以实现这一点。例如,在 httpd.conf 文件的“目录”节点中放置以下指令:

<Directory "C:/Apache2.2/htdocs">
    Options Indexes Includes MultiViews
    IndexOptions +ScanHTMLTitles -IconsAreLinks FancyIndexing FoldersFirst NameWidth=*
    AddIcon (IMG,/webicons/image3.gif) .gif .png .jpeg .jpg .xbm .PNG .JPG .GIF .tiff .bmp
    AddIcon (IMG,/webicons/compressed.gif) .7z .zip .cab .tar .jar .mdb .ldf .mdf .CAB
    AddIcon (IMG,/webicons/binary.gif) .exe .msi .rdp .pcf .dia .class .ks .keystore .scc
    AddIcon (IMG,/webicons/a.gif) .txt .log .properties .doc .xls .xml .ts .msg .dat .sql .csv .pem .sh .py .tlp .java .der .csr .key .crt .bat .cmd .inf
    AddIcon (IMG,/webicons/link.gif) .lnk .htm .url .URL
    AddIcon (IMG,/webicons/pdf.gif) .pdf
    AddIcon /webicons/folder.png ^^DIRECTORY^^
    #ForceType application/octet-stream
    ....
    ....

然后输入:http://domain.com/pdf/blah.pdf

如果你确实需要搜索功能,你可以安装 PHP 并使用PHP 平面文件搜索

答案2

我曾使用 MNOGOsearch 索引一堆 PDF 文件。它可以对 PDF 和许多其他文档类型进行全文搜索。您可能还会发现搜索前端非常熟悉。

*nix 版本是 GNU 许可的。

http://www.mnogosearch.org/

答案3

ownCloud是一个可以在 LAMP 上运行的开源文件存储解决方案。它具有界面非常干净,尽管它还有其他功能(日历、联系人、音乐、图片),它们都很容易被禁用。 作为版本 3它有一个集成的 PDF 查看器。截至版本 5,它具有由 Lucene 提供支持的全文 PDF 搜索。

相关内容