TIFF 转 TEXT,或根据文本内容索引 TIFF 文件

TIFF 转 TEXT,或根据文本内容索引 TIFF 文件

我有几千个 Tiff 文件,每个文件都是多页文本文档。我希望能够搜索这些文件的内容并根据某些信息(例如姓名、城市、县、州、街道、邮政编码等)组织/索引它们。目标是根据搜索词查找相关文件。例如,如果我搜索“Doyle, Bob”和“Orange County”,则将检索包含这些词的所有文件。我有 Windows 和 Linux PC,但不必跨平台。

你有什么建议?

答案1

我希望能够搜索这些(tiff)文件的内容。

下面介绍两种解决方案,分别适用于 Windows 和 Linux。


Windows 解决方案

您可以安装TIFF IFilter

Windows® TIFF IFilter 可让您根据文本内容搜索 TIFF 文档。加载后,Windows TIFF IFilter 会对 TIFF 图像执行光学字符识别 (OCR) 处理,然后将识别出的文本提供给调用者以构建搜索索引。

Windows TIFF IFilter 专注于基于文本的文档,这意味着对于包含清晰可识别文本的文档(例如,白色背景上的黑色文本),搜索会更成功,而对于包含混合内容的文档(例如,艺术文本或图片内的文本),搜索会不太成功。此外,低质量的图像和混合语言会对 OCR 处理产生负面影响,从而降低搜索结果的质量。

Windows TIFF IFilter 支持所有符合 Adob​​e TIFF Revision 6.0 规范的 TIFF 文档,并且包括最常见的压缩(例如 LZW、JPG、CCITT v4、CCITT v6 和未压缩)。

源链接包含详细的安装说明。

笔记:

来源Windows TIFF IFilter 安装和操作指南


Linux 解决方案

  1. 将 TIFF 文件转换为文本文件或 PDF 文件。

    • 下面的链接显示了如何使用中间 OCR 步骤(使用 Tesseract)转换为 PDF。

    • 中间步骤生成一个文本文件。

    • 这意味着 PDF 是由文本而不是图像创建的。

  2. 根据需要搜索文本文件或 PDF 文件。

使用 OCR 扫描和编辑文本一种转换方法。

相关内容