Optical Character Recognition (OCR) ermöglicht es, Buchstaben, Wörter und Zahlen in Bilddateien wie Scans zu erfassen. IT-Verantwortliche in Unternehmen sollten über die Grundvoraussetzungen für eine erfolgreiche Umsetzung der optischen Texterkennung Bescheid wissen.

Bei der Durchführung von Scan-Vorgängen entstehen häufig Bilddateien im JPEG-Format, die sich aus einer Vielzahl unterschiedlicher Bildpunkte zusammensetzen. Das Problem: Diese Dateien beinhalten nur Informationen zur grafischen Wiedergabe von Abbildungen. Wörter und Zahlen erkennt der Computer nicht als solche, sodass sich das Dokument nicht zur effizienten Weiterverarbeitung eignet – Text lässt sich nicht kopieren, durchsuchen oder bearbeiten.

An dieser Stelle setzt OCR an. Mit der Technologie zur automatischen Texterkennung gelingt es, diese gescannten Files in bearbeitbare und durchsuchbare Texte zu konvertieren. Besonders im Dokumentenmanagement spielt dieser Vorgang eine wichtige Rolle. Das Verfahren zeichnet sich vor allem durch eine Mustererkennung aus, die Buchstaben, Ziffern und Satzzeichen durch Abgleich erkennt und anschließend sinnvoll zusammenfügt.

Was es zu beachten gilt

Mithilfe von OCR kommt es zu großen Ersparnissen von Zeit und Aufwand. Denn umfangreiches manuelles Suchen oder ewiges Scrollen durch Dokumente entfällt dank der automatischen Texterkennung und der dadurch möglichen Suchfunktion. Für die Digitalisierung von Papier bringt dies große Vorteile mit sich, da die Dateien nicht einfach nur abgelegt, sondern für eine nützliche Verwendung verfügbar sind.

Viele Lösungen werben mit ebendiesen Pluspunkten und sprechen von problemloser Umsetzung. Häufig fehlt aber ein Hinweis darauf, dass trotz aller Technologie noch immer das analoge Papier zu den Hauptprotagonisten zählt. Weist das Ausgangsdokument geringe Qualität auf – ist es beispielsweise geknickt oder beschmutzt –, fallen die Ergebnisse von OCR in der Regel nicht wie gewünscht aus. In vielen Anwendungsfällen bedarf es allerdings zwingend lückenloser Resultate.

Geschichten aus dem Alltag

Neue, teils verschmierte Adressaufkleber auf dem Personalausweis, Kaffeeflecken auf wichtigen Dokumenten oder ein zerknickter, vielleicht sogar mitgewaschener Reisepass – all diesen Konstellation sehen sich zum Beispiel Banken und Behörden täglich gegenüber.

Gerade in Bezug auf das Geldwäschegesetz und die damit zusammenhängende Legitimation benötigen Finanzinstitute korrekte Angaben, die von den Dokumenten erfasst werden. In Kombination mit einer nicht hochleistungsfähigen Software entstehen keine guten OCR-Ergebnisse – das ist erst ab 85 bis 90 Prozent erkannter Texte aus einem Dokument der Fall.

Oftmals greifen Anwender aber auf Open-Source-Lösungen zurück, die mit der Performance von proprietären Technologien nicht mithalten. Zur Orientierung: Liegt die Quote gar bei 99 Prozent, erkennt das System dennoch von 1.000 Texten zehn nicht. Je tiefer der Anteil also liegt, desto mehr geht verloren. Für Anwender bedeutet dies, dass sie sich unbedingt für eine hochwertige Lösung entscheiden sollten.

Besonders wichtige Angaben sollten darüber hinaus auf Korrektheit geprüft beziehungsweise manuell erfasst werden. Zudem geben die Qualität der zu erfassenden Dateien und deren korrekte, gerade Ausrichtung im Scanvorgang den Ausschlag auf Erfolg.

Myrko Rudolph ist Geschäftsführer der exapture GmbH und Experte für Digitalisierung.

exapture GmbH