上周末我去了祖父母家。祖母拿出了一本厚厚的书(约 1400 页),里面记载着她 1630 年左右的家族史。我是个书呆子,我认为将所有信息存储在数据库中并在网上获取会很棒。我可以处理所有的网络编程和正则表达式等等,但我不知道如何将文本从书中传输到计算机。
我知道某种 OCR 是必要的,从我所做的少量研究来看,我的选择似乎是:
- 用相机拍摄每一页的照片,然后用 OCR 软件处理图片
- 使用扫描仪扫描每一页,然后使用 OCR 软件进行处理
- 使用某种手持设备,例如这。
有人知道解决这个问题的最佳方法吗?我不想毁掉这本书,因为据我所知,它是无法替代的。这可能是我唯一一次扫描一本大书,所以我认为我不想在任何设备上花费超过 250 美元。我不介意在这里做一些手动工作(我知道这很可能需要几个月的时间),但我想找到最有效的方法。
关于这本书的说明:这本书只有大约 20 年的历史,所以保存得相当好。它是单色的,书页还没有开始变黄。但由于它很大,我担心当文字靠近装订线时可能会出现阴影。
答案1
我碰到这我在 Lifehacker 上发现了一些东西,从那时起它就成了我最喜欢的 DIY 项目之一。
用任何相机或成像设备替换 iPhone,您就会得到一堆漂亮的高分辨率 jpeg,可以使用任何软件进行 OCR,甚至(urks!)MS Office... ;)
便宜。有效。DIY。这样的想法无可挑剔。
编辑:评论提出了一些关于阴影、页面卷曲等问题。对于任何影印过图书馆文本的人来说,这都很容易解决。
添加多个光源来照亮书本,并消除阴影。
将书倾斜 90 度,不要让书页向中间的装订处卷曲。这样还可以保护装订。
我会看看是否可以举一个例子并自己建立一个。
编辑 2:上传了您应该如何拿书的样本,同时注意左侧的光源。
答案2
据我所知,泰比是最好的 OCR 软件,但它不是免费的。你应该尝试使用试用版ABBYY FineReader,也许会对你有帮助。
答案3
您需要以某种方式捕捉图像。有各种服务可以为您做到这一点。您还需要熟悉文本内容的人来校对,因为 OCR 还不完善。尤其是对于任何手写内容。
其他人正在这里讨论您的问题: http://ask.metafilter.com/92506/scan-my-books
有些公司会为你做这件事: http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http://www.ristech.ca/product.html
一些免费软件: http://download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html
答案4
你可能想看看你附近的大学是否有整本书扫描仪然后乞求/贿赂学生让你的书通过它。