我刚刚开始使用 Ubuntu 10 天,打算永久停止使用 Windows。到目前为止,它非常棒。我已经用可用的 Ubuntu 应用程序和一些 Google Docs 的帮助替换了几乎所有的 Microsoft 应用程序。
我的 Canon CanoScan LiDE 110 扫描仪出现了问题。当我在 Windows 7 中使用扫描仪并将书籍的扫描页面保存为 PDF 时,我可以打开 PDF 扫描页面并直接从中复制文本以粘贴到 Google Docs 或任何 LibreOffice 文档中。我尝试在 Ubuntu 中使用简单扫描应用程序。我在 Simple Scan 中将页面扫描为文本并将其保存为 PDF。但是在 Ubuntu 中,当我打开扫描的 PDF 页面时,它可以正常打开,但我无法复制文本。
这对我的工作流程非常重要,因为我是一名医生,我需要学习很多书籍。
如果你能帮助我,我将非常感激。
答案1
Tesseract OCR
Tesseract 是 1995 年排名前三的 OCR 之一。自 2006 年起,其开发由谷歌负责。它可以扫描图像、转换为文本并识别 40 种语言。
安装 Tesseract
sudo apt-get install tesseract-ocr
楔形文字
楔形文字是另一种 OCR 系统。它可以识别 23 种语言,包括英语、德语、俄语、法语等。
安装楔形文字
sudo apt-get install cuneiform
其他可能有用的应用程序
- 奥克拉朱武
- 奥克拉德
- 戈克
- 供料器
- pdf studio 8 系列