我正在寻找一种解决方案来加快我的文档扫描过程,尤其是对于那些不适合使用自动文档进纸器 (ADF) 的典型文档扫描仪的文档。对于这些文档,我目前使用平板扫描仪。
起初,我以为更快的扫描硬件会是解决方案(例如,使用相机扫描仪代替典型的平板扫描仪)。但我注意到,扫描的总时间中,只有 20% 用于扫描硬件(扫描头的移动),而 80% 用于软件(图像增强和光学字符识别)。
为了加快扫描速度,我研究了以下内容:(a) 扫描软件不仅使用 CPU 的一个核心/线程,还使用多个核心/线程。尽管进行了广泛的搜索,但我仍未找到适用于 TWAIN 的多线程程序。(b) 工作流程 + 软件:提供定义我自己的扫描配置文件的可能性的程序。但我尚未找到提供扫描配置文件并同时具有良好自动裁剪功能的软件(以及不仅支持英语的 OCR)。(c) 工作流程,即将 OCR 移至单独的步骤(但我并没有因此而提高速度,因为无论我是否包含 OCR,与我的 CanoScan 平板扫描仪捆绑在一起的软件扫描所需的时间都相同)
我怎样才能加快扫描速度?
对于那些了解市场上第三方文档扫描软件的人来说:我会看到 i7 双核和 i7 四核 CPU 之间的速度有明显的差异吗?
作为文档扫描软件,我理解的软件包括图像增强功能(例如,去歪斜、自动裁剪、去网点)、OCR(不仅适用于英语)、保存为多种文件类型的能力(jpg、jpeg2000、TIFF、可搜索 PDF、PDF/A)和扫描配置文件(=用户定义的 dpi、图像增强设置、OCR 语言、文件类型组合)。
答案1
首先,将扫描过程与后期处理过程分开。通过以 300-600DPI 或更高的分辨率扫描图片来实现这一点。文件会很大,但只是暂时的,直到您进行后期处理。文件大小会是您最大的拖慢速度,因此请将分辨率和位深度降低到尽可能低的水平。(例如,如果您不需要颜色,请使用灰度)。您不想要的是 8-1/2"x11" 的 24 位 1200DPI 图像,除非您必须这样做,否则每个图像都有 100 MB;保存和打开它们需要太长时间。
然后使用任何适合您需要的软件,在方便的时候批量运行后期处理。所有软件的功能都不同,因此您必须学习软件。
不过,问题在于,大多数程序只在多核 CPU 的一个核上运行,因此,让程序运行得更快的最佳方法是多次打开程序,并在程序的打开实例之间拆分批处理。大多数程序不会打开多个实例,因此您必须手动从开始菜单或使用特殊“开关”从运行命令运行程序。具体操作取决于您的程序。例如,如果已经打开了一个实例,则需要从运行命令“ACROBAT /N”运行 Acrobat 以打开新实例。
如果我要处理超过 10,000 页的内容,那么白天我会在 4 核计算机上打开 3 个实例,并将任务分散到 3 个实例上,这样我仍然可以使用该计算机(CPU 以 75% 的利用率运行,剩下 25% 用于“办公用途”)。晚上,我会运行 4 个实例,以最大限度地利用计算机。
但如果我知道后期处理不会花那么长时间,比如说只有几个小时,我就不会费心打开实例;我只会运行一个批处理,然后让它运行直到完成。使用双核计算机,这将允许您运行后期处理并继续使用计算机。大多数批处理不会花那么长时间。请注意,如果您在双核计算机上运行 2-3 个实例,您的计算机可能无法用作桌面,直到批处理完成。
另一个选择是,无论您是否运行实例,都进入 Windows 任务管理器并将实例的 CPU 优先级更改为低于正常水平,以便您的活动工作优先于后台后期处理。
至于速度,工作的核心越多,处理速度就越快。问题是,如果你有一个双核 CPU 来运行一个单线程应用程序,而你又买了一个类似的四核 CPU 并以相同的方式运行同一个应用程序,它的速度不会更快。因此,诀窍是同时多次运行你的单线程应用程序,以最大限度地发挥你的 CPU 的能力。
在后期处理结束时,以所需的格式保存文档,然后在删除图像之前进行 QC 批次。
如果您使用 Acrobat 并运行大批量,请做好应对问题的准备!搜索解决方案并找到更多有同样问题的人!Acrobat 很麻烦!