Test und Vergleich von OCR-Texterkennungssoftware

20. Januar 2024

Wird ein Papierdokument mit einem Scanner erfasst oder beispielsweise mit dem Smartphone abfotografiert, dann liegt das digitale Dokument erst einmal nur als Pixelbild vor. Der Text, den wir auf diesem Bild sehen, muss für die Datenverarbeitung erst noch erkannt werden, um eine Volltextsuche und Belegerkennung in den Dokumentenarchiven zu ermöglichen.

Hierfür ist eine Optical Character Recognition-Software, ein Programm für die optische Zeichenerkennung erforderlich. Aktuelle Lösungen erkennen die einzelnen Zeichen im Bildmuster, fassen diese zu Wörtern zusammen und vergleichen das Ergebnis mit Wörterbüchern, um automatische Korrekturen durchzuführen. Man spricht dann von einer Intelligent Character Recognition oder auch Texterkennung.

Wir haben diesen Softwarevergleich erstmalig in 2011 durchgeführt und nach 12,5 Jahren in 2024 mit aktueller OCR wiederholt:

Den OCR-Test vom Januar 2024 finden Sie auf dieser Seite.
Zum Vergleich können Sie zu den Testergebnissen aus 2011 wechseln.

Programme im Test

ABBYY FineReader for ScanSnap 5.5
Kommerzielle Software, die nur zusammen mit dem Ricoh ScanSnap erhältlich ist. Wird von der ScanSnap-Software oder beispielsweise auch von Office Manager DMS per Kommandozeile aufgerufen und verarbeitet das PDF-Dokument direkt. Der erkannte Text wird bei korrekter Einstellung hinter der Grafik positioniert, sodass auch ein Markieren und Kopieren des Textes mit der Maus möglich ist. FineReader beinhaltet Bildverbesserungsfunktionen, wie z. B. das Geraderücken.
Version 5.5 basiert auf der FineReader-Engine 15.0
ABBYY FineReader PDF 16
Kommerzielle Software, die einzeln gekauft werden kann. Bildverbesserungsfunktionen, wie oben beschrieben und zusätzliche Funktionen in der Benutzeroberfläche.
Kofax OmniPage 19.2
Kommerzielle Software. Der erkannte Text wird hinter der Grafik positioniert, sodass auch ein Markieren und Kopieren des Textes mit der Maus möglich ist. OmniPage beinhaltet Bildverbesserungsfunktionen, wie z. B. das Geraderücken schief eingezogener Seiten.
Wir haben auch die etwas ältere Version "Nuance OmniPage 19.0" getestet, die Erkennungsergebnisse sind identisch zur neueren 19.2. Hinweis zum Namen: Die Nuance-OCR wurde 2019 von Kofax übernommen. Die Firma Kofax wurde später in Tungsten Automation umbenannt, die Software hat aber noch den Markennamen Kofax.
Microsoft Azure KI Vision (Cloud OCR)
Cloud-Funktionen für maschinelles Sehen. Diese OCR/ICR erkennt auch Handschiften.
Microsoft WinRT
OCR-Texterkennung, welche ab Windows 10 im Betriebssystem integriert ist und somit ohne zusätzliche Kosten zur Verfügung steht. Der Test lief auf einem PC mit Windows 11.
Tesseract 5.3.3
OpenSource-Software, die selten vom Anwender direkt genutzt wird, sondern in Scansoftware integriert ist.
Tesseract wurde für den Test mit der deutschen Sprachdatei installiert und im LSTM-Modus mit neuronalem Netzwerk ausgeführt. Kommandozeile:
tesseract.exe scanbild.bmp ergebnisdatei --oem 1 -l deu
Transym TOCR 5.1
Kommerzielle Softwarekomponente, die per API in eine Scansoftware integriert werden kann.

Testablauf

Alle Programme wurden mit denselben digitalisierten Dokumenten getestet, um unterschiedliche Scanergebnisse auszuschließen.
Gescannt wurde mit einer Auflösung von 300dpi im Schwarzweiß-Modus. Testdokumente 1 und 3 mit einem Fujitsu fi-7160. Testdokument 2 wurde bereits 2011 für den damaligen OCR-Test mit einem fi-6130 gescannt; für eine optimale Vergleichsmöglichkeit haben wir die digitale Vorlage von damals auch jetzt verwendet.
Die OCR-Programme wurden im Auslieferungszustand verwendet und nicht von uns trainiert.

1. Testdokument

Sauberer schwarzer Druck auf weißem Hintergrund mit ausgewählten Texten.

Getestet wird

Fließtext in üblicher Schriftgröße
Überschrift
Datum
Nummer
Reihe von Ziffern und kleinen Zeichen
Reihe von großen Zeichen, aber nicht
vollständig alphabetisch geordnet
Text in einer Tabelle
Kleine Schriftgröße
Um 90° gedrehter Text

Testergebnisse

OCR-Software	Fehler	Beschreibung
ABBYY FineReader for ScanSnap 5.5	1	Bindestrich bei "OCR-Programme" nicht erkannt
ABBYY FineReader PDF 16	0
Kofax OmniPage 19.2	1	Bindestrich bei "OCR-Programme" nicht erkannt
Microsoft Azure KI Vision	0
Microsoft Windows 11 WinRT	1	"0ffice" statt Office (eine Null statt O)
Tesseract 5.3.3	2	Kleinbuchstaben: i statt l
Transym TOCR 5.1	1	"Quergeschrieben" ignoriert

2. Testdokument

AGB auf der Rückseite eines Kontoauszuges mit 296 Wörtern. Die Vorlage ist mit ihrer schwarzen Schrift auf dunkelgrauem Hintergrund ein Beispiel für schlecht zu digitalisierende Dokumente. Gescannt wurde in Graustufen mit anschließender Umwandlung in Schwarzweiß. Das zweispaltige Layout, die auf dem Hintergrund vorhandenen Flecken und die kleine Schrift stellen eine Herausforderung für die OCR-Erkennung dar. Der am rechten Rand quergeschriebene und schwache Text "VH 31/2010 ER" wurde von keinem der getesteten OCR-Programme (korrekt) erkannt.

Testergebnisse

OCR-Software	Fehler	Erkennungs- Quote		Fehlerhafte Wörter
ABBYY FineReader for ScanSnap 5.5	3	99,0%	¹⁾	Anschriftfen) statt Anschrif(ten) rn statt in quergeschriebener Text ignoriert
ABBYY FineReader PDF 16	3	99,0%	¹⁾	Anschriftfen) statt Anschrif(ten) innerhalb von SectiS Wochen quergeschriebener Text ignoriert
Kofax OmniPage 19.2	1	99,7%	¹⁾	quergeschriebener Text falsch
Microsoft Azure KI Vision	2	99,3%	²⁾	Layout ignoriert quergeschriebener Text ignoriert
Microsoft Windows 11 WinRT	4	98,6%		die» sem, Einwendangen, Bezahttmeldung quergeschriebener Text ignoriert
Tesseract 5.3.3	15	94,9%		Kühdenberater, An-schriftten), Leis-tüungsverzeichn!S, Köntöstand, aüfgrund, EinZugsermächtiqgungslastschriften, Rechnungsahschlüsse, elektrönische, erfalgen, Abbuchungsaufträgslastschrif-ten, Wösungswilleh, Lästschrif-ten, Unserefür, wirIhnen quergeschriebener Text falsch
Transym TOCR 5.1	2	99,3%		"Loseblatt-Sparkas- 9 senbuch" quergeschriebener Text ignoriert

¹⁾ Positiv aufgefallen: Die beiden ABBYY-Versionen und OmniPage haben die am Zeilenumbruch getrennten Wörter wieder korrekt zu einem Wort zusammengefügt.

²⁾ Die KI von Microsoft Azure Read Cloud-OCR/ICR hat das zweispaltige Layout ignoriert. Dies kann zu weiteren Fehlern führen, weil die getrennten Wörter nicht mehr zusammengefügt werden können und der Satzbau für eine Phrasensuche verloren geht.

3. Testdokument

Fließtext aus einem Roman mit einigen Phantasiewörtern. Insgesamt 10 Seiten und 2453 Wörter. Die Texterkennung sollte bei allen Erkennungsprogrammen annähert fehlerfrei sein und nur bei speziellen Zeichen oder vielleicht bei den unbekannten Wörtern Abweichungen aufweisen.

Um das Copyright des Romans nicht zu verletzen, zeigen wir hier nur einen kleinen Auszug des ausgewerteten Scans.

Testergebnisse

OCR-Software	Fehler gesamt	Erkennungs- Quote	Fehler ^*) relevant	Fehlerhafte Wörter
ABBYY FineReader for ScanSnap 5.5	2	99,92%	2	Schhhhl Kleinbuchstabe l statt ! 0 ja mit einer Null statt großem O
ABBYY FineReader PDF 16	3	99,88%	3	Schhhhl Kleinbuchstabe l statt ! 0 ja mit einer Null statt großem O m it... Leerzeichen eingefügt
Kofax OmniPage 19.2	0	100%	0
Microsoft Azure KI Vision	0	100%	0
Microsoft Windows 11 WinRT	0	100%	0
Tesseract 5.3.3	3	99,88%	1	Mrs, zweimal Komma statt Punkt Dursiey statt Dursley
Transym TOCR 5.1	0	100%	0

^*) Erkennungsfehler werden hier als nicht relevant betrachtet, wenn sie keine Auswirkung auf die Volltextsuche haben, beispielsweise Groß-/ Kleinschreibung oder nicht relevante Satzzeichen.

ABBYY FineReader PDF 16 verwendet als Wort-Trennzeichen bei Zeilenumbrüchen das Negationszeichen ¬ statt einem Bindestrich. Dies kann problematisch sein, wenn beispielsweise eine Dokumentenmanagement-Software die Wörter für eine Volltextsuche wieder verbinden möchte.

Hersteller-Links

Weitere Informationen zu den getesteten OCR-Programmen finden Sie in unseren Supportbereich und auf folgenden Herstellerseiten: