Test und Vergleich von OCR-Texterkennungssoftware

Gescannte Papierdokumente liegen nach der digitalen Erfassung nur als Bild vor. Der Text, den wir auf diesem Bild sehen, muss für die Datenverarbeitung erst noch erkannt werden, um beispielsweise eine Volltextsuche in den Dokumentenarchiven zu ermöglichen.

Hierfür ist eine Optical Character Recognition-Software, ein Programm für die optische Zeichenerkennung erforderlich. Aktuelle Lösungen erkennen die einzelnen Zeichen im Bildmuster, fassen diese zu Wörtern zusammen und vergleichen das Ergebnis mit Wörterbüchern, um automatische Korrekturen durchzuführen. Man spricht dann von einer Intelligent Character Recognition oder auch Texterkennung.

Wir haben diesen Softwarevergleich erstmalig in 2011 durchgeführt und nach 12,5 Jahren in 2024 mit aktueller OCR wiederholt:

Den ersten OCR-Test vom Juli 2011 finden Sie auf dieser Seite.
Für den neuen Test vom Januar 2024 klicken Sie hier.

Programme im Test

Nuance OmniPage 17.1 und 18.0
Kommerzielle Software. Wird vom Office Manager per COM-Automatisierung gesteuert und verarbeitet das PDF-Dokument direkt. Der erkannte Text wird hinter der Grafik positioniert, sodass auch ein Markieren und Kopieren des Textes mit der Maus möglich ist. OmniPage kann das PDF/A-Format erstellen und beinhaltet Bildverbesserungsfunktionen, wie z. B. das Geraderücken schief eingezogener Seiten.
ABBYY FineReader for ScanSnap 4.1
Kommerzielle Software, die nur zusammen mit dem Fujitsu ScanSnap erhältlich ist. Wird vom Office Manager per Kommandozeile aufgerufen und verarbeitet das PDF-Dokument direkt. Der erkannte Text wird hinter der Grafik positioniert, sodass auch ein Markieren und Kopieren des Textes mit der Maus möglich ist. FineReader beinhaltet Bildverbesserungsfunktionen, wie z. B. das Geraderücken.
Version 4.1 basiert auf der FineReader-Engine 8.0
Die "Out of the box"-Version "ABBYY FineReader Pro" kann vom Office Manager nicht bzw. die Version 8.0 nur über Zwischenablagefunktionen verwendet werden. Die Corporate-Edition mit HotFolder ist aber möglich und für umfangreiche Scanaufgaben empfehlenswert.
Microsoft Office Document Imaging 2003
Diese Software kann zusammen mit den MS Office-Versionen 2003 und 2007 installiert oder kostenlos von Microsoft geladen werden. Die OCR-Engine von MODI basiert auf OmniPage. Office Manager extrahiert die Grafiken aus dem PDF und übergibt diese an die OCR. Die Steuerung erfolgt mittels COM und ist daher nur zum 32 Bit-Office Manager kompatibel. Der erkannte Text wird im oben Bereich der PDF-Seiten gespeichert.
Transym 3.0.2.4
Kommerzielle Software. Wird per COM-Automatisierung gesteuert, die Grafiken werden zuvor aus dem PDF-Dokument extrahiert. Der erkannte Text wird im oben Bereich der PDF-Seiten gespeichert.
Tesseract 3.0
OpenSource-Software, die zusammen mit dem Office Manager ausgeliefert wird und somit immer zur Verfügung steht. Der Programmaufruf erfolgt über die Kommandozeile, die Grafiken werden zuvor aus dem PDF-Dokument extrahiert und der erkannte Text im oben Bereich der PDF-Seiten gespeichert.

Testablauf

Alle Programme wurden mit demselben digitalisierten Dokument getestet, um unterschiedliche Scanergebnisse auszuschließen.
Scanner: Fujitsu fi-6130 mit einer Auflösung von 300dpi und. Sofern nicht anders vermerkt im Schwarzweiß-Modus.
Die OCR-Programme wurden im Auslieferungszustand verwendet und nicht trainiert.

1. Testdokument

Sauberer schwarzer Druck auf weißem Hintergrund mit ausgewählten Texten.

Getestet wird

Fließtext in üblicher Schriftgröße
Überschrift
Datum
Nummer
Reihe von Zahlen und kleinen Zeichen
Reihe von großen Zeichen, aber nicht
vollständig alphabetisch geordnet
Text in einer Tabelle
Kleine Schriftgröße
Um 90° gedrehter Text

Ergebnis

OCR-Software	Fehler	Beschreibung
OmniPage 17.1	2	Bindestrich bei "OCR-Programme" nicht erkannt "Quergeschrieben" ignoriert
OmniPage 18.0	2	Bindestrich bei "OCR-Programme" nicht erkannt Leerzeichen in große Zeichenreihe eingefügt
ABBYY FineReader for ScanSnap 4.1	2	Bindestrich bei "OCR-Programme" nicht erkannt "Quergeschrieben" ignoriert
Microsoft Office Document Imaging	2	"Quergeschrieben" falsch erkannt Leerzeichen in große Zeichenreihe eingefügt
Transym 3.0.2.4	2	Zeichenreihe: "IJ" als "U" erkannt "Quergeschrieben" ignoriert
Tesseract 3.0	2	Zeichenreihe: "IJ" als "U" erkannt www.krekeler.de: Sonderzeichen "\|" statt Buchstabe "l"

2. Testdokument

AGB auf der Rückseite eines Kontoauszuges mit 296 Wörtern. Die Vorlage ist mit ihrer schwarzen Schrift auf dunkelgrauem Hintergrund ein Beispiel für schlecht zu digitalisierende Dokumente. Gescannt wurde in Graustufen mit anschließender Umwandlung in Schwarzweiß. Die auf dem Hintergrund vorhandenen Flecken und die kleine Schrift stellen eine Herausforderung für die OCR-Erkennung dar.

Testergebnis

OCR-Software	Fehler gesamt	Erkennungs- Quote	Fehler ^*) relevant	Fehlerhafte Wörter
OmniPage 18.0	4	98,7%	3	2..4 statt 2.4 z. 8. zurVerfügung (quergeschriebener Text falsch)
ABBYY FineReader for ScanSnap 4.1	5	98,3%	5	Ernzugsermächtigungslastschriften, tz. B. statt (z. B. Bezahttmeldung, Sparkontöäüszüge (quergeschriebener Text ignoriert)
Microsoft Office Document Imaging	14	95,3%	13	Einzugserrnächtigungslastschriften, Einwendunger, GeschäftsbeZiehung, Eutschriften, Lastschrjften, Unter statt unter, EinliSsung, Eirizugspapiere, Lastachriften, Einlösungaregeln, Kntonummer, zurVerfügung, Grüaen (quergeschriebener Text falsch)
Transym 3.0.2.4	3	99,0%	3	Sparkas- S senbuch, Kontanummer (quergeschriebener Text ignoriert)
Tesseract 3.0	23	92,2%	23	diesern statt diesem ?inwendungen, Revlsionsabteilung, Kuntostand, maßgeb- ächen, möglicheniveíse, geduldeteri, Recnnungsabschaüsse, Eínzugsermächtigungslastschriften, Rechnungsabschliisse, tz. B., Abbuchungsauftragsverfahrenâ, Lastsciwriften, Einiösung, Einzugsnapiere, eingeíüst, bekunctet, Bezahttmelclungl, Einšäsungsregeln, hierfíirvereinbarten, heiten, gem statt gern (quergeschriebener Text falsch)

^*) Erkennungsfehler werden hier als nicht relevant betrachtet, wenn sie keine Auswirkung auf die Volltextsuche haben, beispielsweise Groß-/ Kleinschreibung.

Die guten Erkennungsquoten von OmniPage und FineReader entsprechen den Erwartungen, das hervorragende Ergebnis von Transym hat uns überrascht.
Die schlechte Quote von Tesseract liegt in der Verwendung als reine Zeichenerkennung ohne Wörterbuch. Das Programm sollte trainiert oder zusammen mit Standard-Wörterbüchern verwendet werden.

Hersteller-Links

Weitere Informationen zu den getesteten OCR-Programmen finden Sie in unseren Supportbereich und auf folgenden Herstellerseiten:

Nuance OmniPage, seit 2019 Kofax OmniPage
ABBYY FineReader
Microsoft Office Document Imaging
Transym TOCR
Tesseract