我的网站有一个文件存储库,其中包括文本搜索 - 它不仅搜索文件的标题,还搜索文件的设置属性和内容。
问题是,某些文件未正确保存,并返回非常奇怪的搜索结果。
我有一个项目需要完成并修复属性,以便它们有望在搜索中正确显示,但在我重新上传并告诉网站重新扫描文件之前,最好检查一下搜索系统可能看到的内容。
为此,我想知道是否有人制作了 PDF 的纯文本预览,就像我的搜索引擎可以看到的那样?这样我就可以在重新上传文件之前检查内容了?
或者有其他方法可以检查这一点吗?
答案1
这pdf转文本该工具可以从 PDF 中提取纯文本。