刚刚安装了 gscan2pdf v1.3.9 以及 Tesseract。至于后者,一开始它出现在我的已安装软件列表的底部,但现在它似乎消失了,尽管它仍在工作(我认为)。
无论如何,我正在尝试将扫描文档的 pdf 转换为可编辑文本,但该文档不是英文的,因此 gscan 将其弄得一团糟。
我进入时得到的唯一选项Tools > OCR > Language to recognize
是English
、equ
和osd
。关于如何安装特定语言包,您有什么想法吗?
我不是有经验的 Linux 用户,因此非常感激能够提供分步说明。
答案1
只需使用以下命令安装必要的 OCR 语言:
sudo apt-get install tesseract-ocr-[lang]
在哪里[语言]可
all
或任何此处列出的语言:
afr
amh
ara
asm
aze
aze-cyrl
bel
ben
bod
bos
bul
cat
ceb
ces
chi-sim
chi-tra
chr
cym
dan
dan-frak
deu
deu-frak
dev
dzo
ell
eng
enm
epo
est
eus
fas
fin
fra
frk
frm
gle
gle-uncial
glg
grc
guj
hat
heb
hin
hrv
hun
iku
ind
isl
ita
ita-old
jav
jpn
kan
kat
kat-old
kaz
khm
kir
kor
kur
lao
lat
lav
lit
mal
mar
mkd
mlt
msa
mya
nep
nld
nor
ori
pan
pol
por
pus
ron
rus
san
sin
slk
slk-frak
slv
spa
spa-old
sqi
srp
srp-latn
swa
swe
syr
tam
tel
tgk
tgl
tha
tir
tur
uig
ukr
urd
uzb
uzb-cyrl
vie
yid
这意味着如果您想安装挪威语版本,您可以运行:
sudo apt-get install tesseract-ocr-nor