使用tesseract进行字符识别,结果不符合预期(更糟)。如何变得更好?

使用tesseract进行字符识别,结果不符合预期(更糟)。如何变得更好?

我想在我的问题中添加 Linux 启动的输出,并决定尝试使用光学字符识别,我想在 2022 年肯定应该有像样的开源选项(很长一段时间没有尝试 OCR)。通过网络搜索“好评”找到的链接tesseracthttps://www.linuxlinks.com/ocrtools/图表上第二好。https://askubuntu.com/questions/16268/whats-the-best-simplest-ocr-solution

Tesseract 可能是最准确的开源 OCR 引擎。

我已经通过 apt-get 从发行版安装了它并运行。在我看来,开箱即用的结果很糟糕。为什么?也许它可以很快修复?或者建议另一个可以完成这项工作的软件包。我试图识别的页面缺少图片,因为我认为这是相当容易的任务。结果见下图:

编辑:事实上,处理该小部分时的结果要好得多,但处理整个时的结果则不好。我知道使线条更加水平而不倾斜可能会有很大帮助,但我仍然希望软件能够擅长识别不完全对齐的文本。

在此输入图像描述

oon usb 1-@: |
“3792661 usb 1-8: New USB device found, idVendor=1343, idProduct:

7.983163] usb 1-8: New USB dev bs P luct=5662, bedDevice=16.6?

re eh peeled haibbetaia a

: new high-speed USB device number 5 PhS |
i

Per Samm SCR Can)
t pela ee rcpt PP cay
: 2.998668) usb 1-8: er
t
Ct

当只加工小部分时:

2.837811) usb 1-8: new high-speed USB device number 5 using xhei_hed

2.979266] usb 1-8: New USB device ECU CREME Cnt ttc cain Tt teen Td
7.983163] usb 1-8: New USB device strings: Mfr=1, Product=2, SerialNumbers@

?.9869291 usb 1-8: Product: Integrated Camera

添加1:

再次尝试更小且倾斜度较小的图片,我猜软件将时间戳视为单独的列,我没有在手册页选项中看到可以调整的选项:

在此输入图像描述

f a eg
| 7.849264]
Device= 6.44
f 7 .6492961
| 7.849355]
f 7.849415]
[ 7.849492]
| Van eos
fl 7.861846]
if Va ACB
| 7.864776]
if eel Be
Ha Bs) bs 4
if be A be ge
C ie BD LB
ce B)
te] Bs]
rage
lb eae
8.962076)
ie Ke Lb
9.600567)
9.696957)
9 .6970371

YS SF SS Se

usb 1-8: new high-speed USB device number 4 using xhci_hcd
usb 1-8: New USB device found, idVendor=04f2, idProduct=b449, bed

usb 1-8: New USB device strings: Mfr=3, Product=1, SerialNumber=2
usb 1-8: Product: Integrated Camera

usb 1-8: Manufacturer: Chicony Electronics Co.,Ltd.
usb 1-8: SerialNumber: 6x0001

usb-storage 1-1:1.6: USB Mass Storage device detected

scsi host3:

usb-storage 1-1:1.6

usbcore: registered new interface driver usb-storage
usbcore: registered new interface driver uas

scsi 3:0:6:@: Direct-fAccess General UDisk eg
sd 3:0:0:0: Attached scsi generic sgi type @

eM Pee PM eA PA ed) te) ae
Py Me ee dd

Py ee ee eee dm

sd 3:0:0:0: [sdb] Assuming drive cache: write through

sdb: sdbi sdb2 sdb3

sd 3:0:0:0: [sdb] Attached SCSI removable disk

squashfs: version 4.6 (2609/01/31) Phillip Lougher

Copying live image to RAM...
Ca ewe te Mae

相关内容