Test und Vergleich von OCR-Texterkennungssoftware

Wird ein Papierdokument mit einem Scanner erfasst oder beispielsweise mit dem Smartphone abfotografiert, dann liegt das digitale Dokument erst einmal nur als Pixelbild vor. Der Text, den wir auf diesem Bild sehen, muss für die Datenverarbeitung erst noch erkannt werden, um eine Volltextsuche und Belegerkennung in den Dokumentenarchiven zu ermöglichen.

Hierfür ist eine Optical Character Recognition-Software, ein Programm für die optische Zeichenerkennung erforderlich. Aktuelle Lösungen erkennen die einzelnen Zeichen im Bildmuster, fassen diese zu Wörtern zusammen und vergleichen das Ergebnis mit Wörterbüchern, um automatische Korrekturen durchzuführen. Man spricht dann von einer Intelligent Character Recognition oder auch Texterkennung.

Wir haben diesen Softwarevergleich erstmalig in durchgeführt und nach 12,5 Jahren in mit aktueller OCR wiederholt:

Programme im Test

  1. ABBYY FineReader for ScanSnap 5.5
    Kommerzielle Software, die nur zusammen mit dem Ricoh ScanSnap erhältlich ist. Wird von der ScanSnap-Software oder beispielsweise auch von Office Manager DMS per Kommandozeile aufgerufen und verarbeitet das PDF-Dokument direkt. Der erkannte Text wird bei korrekter Einstellung hinter der Grafik positioniert, sodass auch ein Markieren und Kopieren des Textes mit der Maus möglich ist. FineReader beinhaltet Bildverbesserungsfunktionen, wie z. B. das Geraderücken.
    Version 5.5 basiert auf der FineReader-Engine 15.0
  2. ABBYY FineReader PDF 16
    Kommerzielle Software, die einzeln gekauft werden kann. Bildverbesserungsfunktionen, wie oben beschrieben und zusätzliche Funktionen in der Benutzeroberfläche.
  3. Kofax OmniPage 19.2
    Kommerzielle Software. Der erkannte Text wird hinter der Grafik positioniert, sodass auch ein Markieren und Kopieren des Textes mit der Maus möglich ist. OmniPage beinhaltet Bildverbesserungsfunktionen, wie z. B. das Geraderücken schief eingezogener Seiten.
    Wir haben auch die etwas ältere Version "Nuance OmniPage 19.0" getestet, die Erkennungsergebnisse sind identisch zur neueren 19.2. Hinweis zum Namen: Die Nuance-OCR wurde von Kofax übernommen. Die Firma Kofax wurde später in Tungsten Automation umbenannt, die Software hat aber noch den Markennamen Kofax.
  4. Microsoft Azure KI Vision (Cloud OCR)
    Cloud-Funktionen für maschinelles Sehen. Diese OCR/ICR erkennt auch Handschiften.
  5. Microsoft WinRT
    OCR-Texterkennung, welche ab Windows 10 im Betriebssystem integriert ist und somit ohne zusätzliche Kosten zur Verfügung steht. Der Test lief auf einem PC mit Windows 11.
  6. Tesseract 5.3.3
    OpenSource-Software, die selten vom Anwender direkt genutzt wird, sondern in Scansoftware integriert ist.
    Tesseract wurde für den Test mit der deutschen Sprachdatei installiert und im LSTM-Modus mit neuronalem Netzwerk ausgeführt. Kommandozeile:
    tesseract.exe scanbild.bmp ergebnisdatei --oem 1 -l deu
  7. Transym TOCR 5.1
    Kommerzielle Softwarekomponente, die per API in eine Scansoftware integriert werden kann.

Testablauf

Alle Programme wurden mit denselben digitalisierten Dokumenten getestet, um unterschiedliche Scanergebnisse auszuschließen.
Gescannt wurde mit einer Auflösung von 300dpi im Schwarzweiß-Modus. Testdokumente 1 und 3 mit einem Fujitsu fi-7160. Testdokument 2 wurde bereits 2011 für den damaligen OCR-Test mit einem fi-6130 gescannt; für eine optimale Vergleichsmöglichkeit haben wir die digitale Vorlage von damals auch jetzt verwendet.
Die OCR-Programme wurden im Auslieferungszustand verwendet und nicht von uns trainiert.

1. Testdokument

Sauberer schwarzer Druck auf weißem Hintergrund mit ausgewählten Texten.

Getestet wird

  • Fließtext in üblicher Schriftgröße
  • Überschrift
  • Datum
  • Nummer
  • Reihe von Ziffern und kleinen Zeichen
  • Reihe von großen Zeichen, aber nicht
    vollständig alphabetisch geordnet
  • Text in einer Tabelle
  • Kleine Schriftgröße
  • Um 90° gedrehter Text
OCR Texterkennung - Testdokument

Testergebnisse

OCR-Software Fehler Beschreibung
ABBYY FineReader for ScanSnap 5.5 1 Bindestrich bei "OCR-Programme" nicht erkannt
ABBYY FineReader PDF 16 0
Kofax OmniPage 19.2 1 Bindestrich bei "OCR-Programme" nicht erkannt
Microsoft Azure KI Vision 0
Microsoft Windows 11 WinRT 1 "0ffice" statt Office (eine Null statt O)
Tesseract 5.3.3 2 Kleinbuchstaben: i statt l
Transym TOCR 5.1 1 "Quergeschrieben" ignoriert

2. Testdokument

AGB auf der Rückseite eines Kontoauszuges mit 296 Wörtern. Die Vorlage ist mit ihrer schwarzen Schrift auf dunkelgrauem Hintergrund ein Beispiel für schlecht zu digitalisierende Dokumente. Gescannt wurde in Graustufen mit anschließender Umwandlung in Schwarzweiß. Das zweispaltige Layout, die auf dem Hintergrund vorhandenen Flecken und die kleine Schrift stellen eine Herausforderung für die OCR-Erkennung dar. Der am rechten Rand quergeschriebene und schwache Text "VH 31/2010 ER" wurde von keinem der getesteten OCR-Programme (korrekt) erkannt.

OCR-Testdokument "Kontoauszug"

Testergebnisse

OCR-Software Fehler Erkennungs-
Quote
Fehlerhafte Wörter
ABBYY FineReader for ScanSnap 5.5 3 99,0% 1) Anschriftfen) statt Anschrif(ten)
rn statt in
quergeschriebener Text ignoriert
ABBYY FineReader PDF 16 3 99,0% 1) Anschriftfen) statt Anschrif(ten)
innerhalb von SectiS Wochen
quergeschriebener Text ignoriert
Kofax OmniPage 19.2 1 99,7% 1) quergeschriebener Text falsch
Microsoft Azure KI Vision 2 99,3% 2) Layout ignoriert
quergeschriebener Text ignoriert
Microsoft Windows 11 WinRT 4 98,6% die» sem, Einwendangen, Bezahttmeldung
quergeschriebener Text ignoriert
Tesseract 5.3.3 15 94,9% Kühdenberater, An-schriftten), Leis-tüungsverzeichn!S, Köntöstand, aüfgrund, EinZugsermächtiqgungslastschriften, Rechnungsahschlüsse, elektrönische, erfalgen, Abbuchungsaufträgslastschrif-ten, Wösungswilleh, Lästschrif-ten, Unserefür, wirIhnen
quergeschriebener Text falsch
Transym TOCR 5.1 2 99,3% "Loseblatt-Sparkas- 9 senbuch"
quergeschriebener Text ignoriert

1) Positiv aufgefallen: Die beiden ABBYY-Versionen und OmniPage haben die am Zeilenumbruch getrennten Wörter wieder korrekt zu einem Wort zusammengefügt.

2) Die KI von Microsoft Azure Read Cloud-OCR/ICR hat das zweispaltige Layout ignoriert. Dies kann zu weiteren Fehlern führen, weil die getrennten Wörter nicht mehr zusammengefügt werden können und der Satzbau für eine Phrasensuche verloren geht.

3. Testdokument

Fließtext aus einem Roman mit einigen Phantasiewörtern. Insgesamt 10 Seiten und 2453 Wörter. Die Texterkennung sollte bei allen Erkennungsprogrammen annähert fehlerfrei sein und nur bei speziellen Zeichen oder vielleicht bei den unbekannten Wörtern Abweichungen aufweisen.

Auszug des OCR-Testdokument "Roman"

Um das Copyright des Romans nicht zu verletzen, zeigen wir hier nur einen kleinen Auszug des ausgewerteten Scans.

Testergebnisse

OCR-Software Fehler
gesamt
Erkennungs-
Quote
Fehler *)
relevant
Fehlerhafte Wörter
ABBYY FineReader for ScanSnap 5.5 2 99,92% 2 Schhhhl Kleinbuchstabe l statt !
0 ja mit einer Null statt großem O
ABBYY FineReader PDF 16 3 99,88% 3 Schhhhl Kleinbuchstabe l statt !
0 ja mit einer Null statt großem O
m it... Leerzeichen eingefügt
Kofax OmniPage 19.2 0 100% 0
Microsoft Azure KI Vision 0 100% 0
Microsoft Windows 11 WinRT 0 100% 0
Tesseract 5.3.3 3 99,88% 1 Mrs, zweimal Komma statt Punkt
Dursiey statt Dursley
Transym TOCR 5.1 0 100% 0

*) Erkennungsfehler werden hier als nicht relevant betrachtet, wenn sie keine Auswirkung auf die Volltextsuche haben, beispielsweise Groß-/ Kleinschreibung oder nicht relevante Satzzeichen.

ABBYY FineReader PDF 16 verwendet als Wort-Trennzeichen bei Zeilenumbrüchen das Negationszeichen ¬ statt einem Bindestrich. Dies kann problematisch sein, wenn beispielsweise eine Dokumentenmanagement-Software die Wörter für eine Volltextsuche wieder verbinden möchte.

Weitere Informationen zu den getesteten OCR-Programmen finden Sie in unseren Supportbereich und auf folgenden Herstellerseiten: