Test und Vergleich von OCR-Texterkennungssoftware

Gescannte Papierdokumente liegen nach der digitalen Erfassung nur als Bild vor. Der Text, den wir auf diesem Bild sehen, muss für die Datenverarbeitung erst noch erkannt werden, um beispielsweise eine Volltextsuche in den Dokumentenarchiven zu ermöglichen.

Hierfür ist eine Optical Character Recognition-Software, ein Programm für die optische Zeichenerkennung erforderlich. Aktuelle Lösungen erkennen die einzelnen Zeichen im Bildmuster, fassen diese zu Wörtern zusammen und vergleichen das Ergebnis mit Wörterbüchern, um automatische Korrekturen durchzuführen. Man spricht dann von einer Intelligent Character Recognition oder auch Texterkennung.

Wir haben diesen Softwarevergleich erstmalig in durchgeführt und nach 12,5 Jahren in mit aktueller OCR wiederholt:

Programme im Test

  1. Nuance OmniPage 17.1 und 18.0
    Kommerzielle Software. Wird vom Office Manager per COM-Automatisierung gesteuert und verarbeitet das PDF-Dokument direkt. Der erkannte Text wird hinter der Grafik positioniert, sodass auch ein Markieren und Kopieren des Textes mit der Maus möglich ist. OmniPage kann das PDF/A-Format erstellen und beinhaltet Bildverbesserungsfunktionen, wie z. B. das Geraderücken schief eingezogener Seiten.
  2. ABBYY FineReader for ScanSnap 4.1
    Kommerzielle Software, die nur zusammen mit dem Fujitsu ScanSnap erhältlich ist. Wird vom Office Manager per Kommandozeile aufgerufen und verarbeitet das PDF-Dokument direkt. Der erkannte Text wird hinter der Grafik positioniert, sodass auch ein Markieren und Kopieren des Textes mit der Maus möglich ist. FineReader beinhaltet Bildverbesserungsfunktionen, wie z. B. das Geraderücken.
    Version 4.1 basiert auf der FineReader-Engine 8.0
    Die "Out of the box"-Version "ABBYY FineReader Pro" kann vom Office Manager nicht bzw. die Version 8.0 nur über Zwischenablagefunktionen verwendet werden. Die Corporate-Edition mit HotFolder ist aber möglich und für umfangreiche Scanaufgaben empfehlenswert.
  3. Microsoft Office Document Imaging 2003
    Diese Software kann zusammen mit den MS Office-Versionen 2003 und 2007 installiert oder kostenlos von Microsoft geladen werden. Die OCR-Engine von MODI basiert auf OmniPage. Office Manager extrahiert die Grafiken aus dem PDF und übergibt diese an die OCR. Die Steuerung erfolgt mittels COM und ist daher nur zum 32 Bit-Office Manager kompatibel. Der erkannte Text wird im oben Bereich der PDF-Seiten gespeichert.
  4. Transym 3.0.2.4
    Kommerzielle Software. Wird per COM-Automatisierung gesteuert, die Grafiken werden zuvor aus dem PDF-Dokument extrahiert. Der erkannte Text wird im oben Bereich der PDF-Seiten gespeichert.
  5. Tesseract 3.0
    OpenSource-Software, die zusammen mit dem Office Manager ausgeliefert wird und somit immer zur Verfügung steht. Der Programmaufruf erfolgt über die Kommandozeile, die Grafiken werden zuvor aus dem PDF-Dokument extrahiert und der erkannte Text im oben Bereich der PDF-Seiten gespeichert.

Testablauf

Alle Programme wurden mit demselben digitalisierten Dokument getestet, um unterschiedliche Scanergebnisse auszuschließen.
Scanner: Fujitsu fi-6130 mit einer Auflösung von 300dpi und. Sofern nicht anders vermerkt im Schwarzweiß-Modus.
Die OCR-Programme wurden im Auslieferungszustand verwendet und nicht trainiert.

1. Testdokument

Sauberer schwarzer Druck auf weißem Hintergrund mit ausgewählten Texten.

Getestet wird

  • Fließtext in üblicher Schriftgröße
  • Überschrift
  • Datum
  • Nummer
  • Reihe von Zahlen und kleinen Zeichen
  • Reihe von großen Zeichen, aber nicht
    vollständig alphabetisch geordnet
  • Text in einer Tabelle
  • Kleine Schriftgröße
  • Um 90° gedrehter Text
OCR Texterkennung - Testdokument

Ergebnis

OCR-Software Fehler Beschreibung
OmniPage 17.1 2 Bindestrich bei "OCR-Programme" nicht erkannt
"Quergeschrieben" ignoriert
OmniPage 18.0 2 Bindestrich bei "OCR-Programme" nicht erkannt
Leerzeichen in große Zeichenreihe eingefügt
ABBYY FineReader for ScanSnap 4.1 2 Bindestrich bei "OCR-Programme" nicht erkannt
"Quergeschrieben" ignoriert
Microsoft Office Document Imaging 2 "Quergeschrieben" falsch erkannt
Leerzeichen in große Zeichenreihe eingefügt
Transym 3.0.2.4 2 Zeichenreihe: "IJ" als "U" erkannt
"Quergeschrieben" ignoriert
Tesseract 3.0 2 Zeichenreihe: "IJ" als "U" erkannt
www.krekeler.de: Sonderzeichen "|" statt Buchstabe "l"

2. Testdokument

AGB auf der Rückseite eines Kontoauszuges mit 296 Wörtern. Die Vorlage ist mit ihrer schwarzen Schrift auf dunkelgrauem Hintergrund ein Beispiel für schlecht zu digitalisierende Dokumente. Gescannt wurde in Graustufen mit anschließender Umwandlung in Schwarzweiß. Die auf dem Hintergrund vorhandenen Flecken und die kleine Schrift stellen eine Herausforderung für die OCR-Erkennung dar.

OCR-Testdokument "Kontoauszug"

Testergebnis

OCR-Software Fehler
gesamt
Erkennungs-
Quote
Fehler *)
relevant
Fehlerhafte Wörter
OmniPage 18.0 4 98,7% 3 2..4 statt 2.4
z. 8.
zurVerfügung
(quergeschriebener Text falsch)
ABBYY FineReader for ScanSnap 4.1 5 98,3% 5 Ernzugsermächtigungslastschriften,
tz. B. statt (z. B.
Bezahttmeldung, Sparkontöäüszüge
(quergeschriebener Text ignoriert)
Microsoft Office Document Imaging 14 95,3% 13 Einzugserrnächtigungslastschriften, Einwendunger, GeschäftsbeZiehung, Eutschriften, Lastschrjften, Unter statt unter, EinliSsung, Eirizugspapiere, Lastachriften, Einlösungaregeln, Kntonummer, zurVerfügung, Grüaen
(quergeschriebener Text falsch)
Transym 3.0.2.4 3 99,0% 3 Sparkas- S senbuch, Kontanummer
(quergeschriebener Text ignoriert)
Tesseract 3.0 23 92,2% 23 diesern statt diesem
?inwendungen, Revlsionsabteilung, Kuntostand, maßgeb- ächen, möglicheniveíse, geduldeteri, Recnnungsabschaüsse, Eínzugsermächtigungslastschriften, Rechnungsabschliisse, tz. B., Abbuchungsauftragsverfahrenâ, Lastsciwriften, Einiösung, Einzugsnapiere, eingeíüst, bekunctet, Bezahttmelclungl, Einšäsungsregeln, hierfíirvereinbarten, heiten, gem statt gern
(quergeschriebener Text falsch)

*) Erkennungsfehler werden hier als nicht relevant betrachtet, wenn sie keine Auswirkung auf die Volltextsuche haben, beispielsweise Groß-/ Kleinschreibung.

Die guten Erkennungsquoten von OmniPage und FineReader entsprechen den Erwartungen, das hervorragende Ergebnis von Transym hat uns überrascht.
Die schlechte Quote von Tesseract liegt in der Verwendung als reine Zeichenerkennung ohne Wörterbuch. Das Programm sollte trainiert oder zusammen mit Standard-Wörterbüchern verwendet werden.

Weitere Informationen zu den getesteten OCR-Programmen finden Sie in unseren Supportbereich und auf folgenden Herstellerseiten: