我有几千个 Tiff 文件,每个文件都是多页文本文档。我希望能够搜索这些文件的内容并根据某些信息(例如姓名、城市、县、州、街道、邮政编码等)组织/索引它们。目标是根据搜索词查找相关文件。例如,如果我搜索“Doyle, Bob”和“Orange County”,则将检索包含这些词的所有文件。我有 Windows 和 Linux PC,但不必跨平台。
你有什么建议?
答案1
我希望能够搜索这些(tiff)文件的内容。
下面介绍两种解决方案,分别适用于 Windows 和 Linux。
Windows 解决方案
您可以安装TIFF IFilter。
Windows® TIFF IFilter 可让您根据文本内容搜索 TIFF 文档。加载后,Windows TIFF IFilter 会对 TIFF 图像执行光学字符识别 (OCR) 处理,然后将识别出的文本提供给调用者以构建搜索索引。
Windows TIFF IFilter 专注于基于文本的文档,这意味着对于包含清晰可识别文本的文档(例如,白色背景上的黑色文本),搜索会更成功,而对于包含混合内容的文档(例如,艺术文本或图片内的文本),搜索会不太成功。此外,低质量的图像和混合语言会对 OCR 处理产生负面影响,从而降低搜索结果的质量。
Windows TIFF IFilter 支持所有符合 Adobe TIFF Revision 6.0 规范的 TIFF 文档,并且包括最常见的压缩(例如 LZW、JPG、CCITT v4、CCITT v6 和未压缩)。
源链接包含详细的安装说明。
笔记:
- Windows TIFF 过滤器在 Windows 7 Starter 或 Windows 7 Home Basic 中不可用(根据提示:通过启用 Tiff 索引在 Windows 7 中搜索 Tiff 文件)
来源Windows TIFF IFilter 安装和操作指南
Linux 解决方案
将 TIFF 文件转换为文本文件或 PDF 文件。
下面的链接显示了如何使用中间 OCR 步骤(使用 Tesseract)转换为 PDF。
中间步骤生成一个文本文件。
这意味着 PDF 是由文本而不是图像创建的。
根据需要搜索文本文件或 PDF 文件。
看使用 OCR 扫描和编辑文本一种转换方法。