我有一个大型的多页 TIF 图像文件。
几天前我扫描了一本书,不小心把它扫描成了多页 TIF。我真的很想把它转换成更易于访问的 PDF 文件。
你知道怎样才能做到这一点吗?
答案1
如果你只愿意转换文件格式(而不让文本可搜索(通过 OCR 进行搜索)在 Jonathan Ben-Avraham 的回答中),这将是一个完美的任务,convert
从图像魔术师软件包(适用于各种平台:Win、Linux、Mac)。安装时,请务必选择包含“转换”旧版实用程序的选项。
只需使用该命令即可转换多页 TIFF 文件
convert multi-page.tif book.pdf
但是,您应该使用-compress
参数。如果您有 24 位彩色 TIF,则可以使用LZW
(无损)或JPEG
(有损),例如
convert -compress LZW multi-page.tif book.pdf
如果您的 TIFF 是黑白的(请确保它确实仅以 1 位色彩深度保存),我通常使用-compress Fax
。
这是一个 5 页示例文件的示例,其中包含一些文本——压缩算法之间的实际比率当然取决于文件的内容:
24bit JPEG: 1294kB
24bit LZW: 1759kB
1bit Fax: 135kB
转换后,您仍然可以运行 OCR 工具(如 Adobe Acrobat Pro)来使文本可搜索和复制。
答案2
TIFF(标记图像文件格式)是一种面向像素的格式,适用于图像。为了从 TIFF 文件中获取字符数据,您必须使用 OCR(光学字符识别)程序。所有 OCR 程序都有一定的错误率。页面的格式(页眉、页脚、章节标题等)也会影响 OCR 准确猜测字符的能力。
语言,尤其是书写系统和字体也会影响 OCR 的准确性。如果书中使用带有连字符的不寻常的非西方字体,那么获得良好 OCR 输出的机会几乎为零。
如果书的主要内容不是文字,例如,包含许多屏幕截图或其他重要图像的书,那么 OCR 将无法帮助您。
有一些开源 OCR 程序可用,具体取决于您使用的操作系统。Google Drive 有免费的 OCR 服务。WMMV。
假设您扫描的原始书籍是纸质格式,那么无论如何,TIFF 都是您能做到的最佳选择。您可以通过压缩 TIFF 文件使文档大小更易于管理。尝试使用不同级别的 JPEG 压缩来优化文档大小和可读性。