OCR-Test im Juli 2011
Vergleich der für den Office Manager geeigneten OCR-Programme.
Der folgende Test bezieht sich auf die Texterkennung im Zusammenspiel mit der Dokumentenmanagement- und Archivierungssoftware Office Manager.
Der Office Manager beinhaltet Schnittstellen zu verschiedenen OCR-Texterkennungslösungen. Gescannte Papierdokumente liegen nach der digitalen Erfassung nur als Bild vor. Der Text, den wir auf diesem Bild sehen, muss für die Datenverarbeitung erst noch erkannt werden, um beispielsweise eine Volltextsuche in den Dokumentenarchiven zu ermöglichen.
Hierfür ist eine Optical Character Recognition-Software, ein Programm für die optische Zeichenerkennung erforderlich. Aktuelle Lösungen erkennen die einzelnen Zeichen im Bildmuster, fassen diese zu Wörtern zusammen und vergleichen das Ergebnis mit Wörterbüchern, um automatische Korrekturen durchzuführen. Man spricht dann von einer Intelligent Character Recognition oder auch Texterkennung.
Alle Programme wurden mit demselben digitalisierten Dokument getestet, um unterschiedliche Scanergebnisse auszuschließen.
Scanner: Fujitsu fi-6130 mit einer Auflösung von 300dpi und, sofern in anders vermerkt, im Schwarzweiß-Modus.
Die OCR-Programme wurden im Auslieferungszustand verwendet und nicht trainiert.
Sauberer, schwarzer Druck auf weißem Hintergrund mit ausgewählten Texten.
Getestet wird
| OCR-Software | Fehler | Beschreibung |
|---|---|---|
| OmniPage 17.1 | 2 | Bindestrich bei "OCR-Programme" nicht erkannt "Quergeschrieben" ignoriert |
| OmniPage 18.0 | 2 | Bindestrich bei "OCR-Programme" nicht erkannt Leerzeichen in große Zeichenreihe eingefügt |
| ABBYY FineReader for ScanSnap 4.1 | 2 | Bindestrich bei "OCR-Programme" nicht erkannt "Quergeschrieben" ignoriert |
| Microsoft Office Document Imaging | 2 | "Quergeschrieben" falsch erkannt Leerzeichen in große Zeichenreihe eingefügt |
| Transym 3.0.2.4 | 2 | Zahlenreihe: "IJ" als "U" erkannt "Quergeschrieben" ignoriert |
| Tesseract 3.0 | 2 | Zahlenreihe: "IJ" als "U" erkannt www.krekeler.de: "|" statt "l" |
AGB auf der Rückseite eines Kontoauszuges mit 296 Wörtern. Die Vorlage ist mit ihrer schwarzen Schrift auf dunkelgrauem Hintergrund ein Beispiel für schlecht zu digitalisierende Dokumente. Gescannt wurde in Graustufen mit anschließender Umwandlung in Schwarzweiß. Die auf dem Hintergrund vorhandenen Flecken und die kleine Schrift stellen eine Herausforderung für die OCR-Erkennung dar.

| OCR-Software | Fehler gesamt |
Erkennungs- Quote |
Fehler relevant |
Fehlerhafte Wörter |
|---|---|---|---|---|
| OmniPage 18.0 | 4 | 98,7% | 3 | "2..4" statt "2.4", z. 8., zurVerfügung (quergeschriebener Text falsch) |
| ABBYY FineReader for ScanSnap 4.1 | 5 | 98,3% | 5 | Ernzugsermächtigungslastschriften, "tz. B." statt "(z. B.", Bezahttmeldung, Sparkontöäüszüge (quergeschriebener Text ignoriert) |
| Microsoft Office Document Imaging | 14 | 95,3% | 13 | Einzugserrnächtigungslastschriften, Einwendunger, GeschäftsbeZiehung, Eutschriften, Lastschrjften, "Unter" statt "unter",
EinliSsung, Eirizugspapiere, Lastachriften, Einlösungaregeln, Kntonummer, zurVerfügung, Grüaen (quergeschriebener Text falsch) |
| Transym 3.0.2.4 | 3 | 99,0% | 3 | Sparkas- S senbuch, Kontanummer (quergeschriebener Text ignoriert) |
| Tesseract 3.0 | 23 | 92,2% | 23 | "diesern" statt "diesem", ?inwendungen, Revlsionsabteilung, Kuntostand, maßgeb- ächen, möglicheniveíse,
geduldeteri, Recnnungsabschaüsse, Eínzugsermächtigungslastschriften, Rechnungsabschliisse, tz. B., Abbuchungsauftragsverfahrenâ,
Lastsciwriften, Einiösung, Einzugsnapiere, eingeíüst, bekunctet, Bezahttmelclungl, Einšäsungsregeln,
hierfíirvereinbarten, heiten, "gem" statt "gern" (quergeschriebener Text falsch) |
Erkennungsfehler werden hier als nicht relevant betrachtet, wenn sie keine Auswirkung auf die Volltextsuche haben, beispielsweise Groß-/ Kleinschreibung.
Die Erkennungsquoten von OmniPage und FineReader entsprechen den Erwartungen, das hervorragende Ergebnis von Transym hat uns überrascht.
Die schlechte Quote von Tesseract liegt in der Verwendung als reine Zeichenerkennung ohne Wörterbuch. Das Programm sollte trainiert oder
zusammen mit Standard-Wörterbüchern verwendet werden.
Weitere Informationen zu den getesteten OCR-Programmen finden Sie in unseren Supportbereich und auf folgenden Herstellerseiten: