Intelligente Dokumentenverarbeitung (IDP) mag zwar sehr modern klingen, aber ihre frühesten Wurzeln liegen bereits in der Entwicklung der ersten OCR-L.ösungen (Optical Character Recognition), die kaum mehr taten, als Zeichenbilder in maschinencodierten Text umzuwandeln. Heute verfügt die intelligente Dokumentenverarbeitung über auf künstlicher Intelligenz (KI) basierende Funktionen, die die Verarbeitung aller Arten von Daten aus allen Arten von Dokumenten für nahezu jeden Prozess in jeder Branche ermöglichen.
Seit den ersten Modellen zur intelligenten Dokumentenverarbeitung hat sich viel getan. Spätestens durch den populären Erfolg von ChatGPT sind Large Language Models (LLMs) ein Begriff geworden. Um zu verstehen, was LLMs sind, muss man erst wissen, wie ihre Aufgabe aussieht.
Bei LLMs wie GPT-4, das ChatGPT zu Grunde liegt, besteht die Aufgabe in der sogenannten Autoregression, also der Vorhersage des nächsten Wortes, und zwar auf Grundlage von Texten aus dem Internet. LLMs erhalten also einen Stück Text als Eingabe (häufig auch Prompt genannt) und erzeugen basierend darauf einen zusätzlichen Text als Ausgabe.
Was sich genau hinter IDP verbirgt und wie IDP-Anbieter LLMs nutzen können, um die intelligente Dokumentenverarbeitung auf ein neues Level zu heben wird im Folgenden veranschaulicht.
Was steckt hinter der Fähigkeit, Dokumente intelligent zu verarbeiten?
IDP nutzt die Technik der optischen Zeichenerkennung, um gedruckten oder handschriftlichen Text in maschinenlesbares Format umzuwandeln. IDP wendet auch Techniken der KI und des maschinellen Lernens (ML) an, um strukturierte, halbstrukturierte und unstrukturierte Daten in Dokumenten wie ein Mensch zu lesen, zu verstehen und zu verarbeiten.
IDP verwendet Modelle des maschinellen Lernens, um Dokumente auf der Grundlage ihres Inhalts, Layouts oder anderer Merkmale in verschiedene Kategorien einzuordnen. So können beispielsweise Rechnungen als “Rechnungen”, Verträge als “Verträge” usw. kategorisiert werden. Die kategorisierten Dokumente werden dann an vorab trainierte Extraktionsmodelle weitergeleitet, die die Daten im Dokument auf menschenähnliche Weise analysieren und verstehen und in der Lage sind, geschäftskritische Informationen zu extrahieren.
Durch die Einbeziehung der Verarbeitung natürlicher Sprache (NLP) ist die Technologie auch in der Lage, den Kontext der gelesenen Informationen zu interpretieren. Bezieht sich zum Beispiel das Wort “Jaguar” auf eine große Katze oder ein Auto? Durch die Anwendung von NLP wird eine noch nie dagewesene Erkennung von unstrukturierten Daten identifiziert und extrahiert, die wie ein menschliches Gehirn arbeiten kann, das sich schnell an veränderte Eingaben anpasst und das bestmögliche Ergebnis erzielt. Diese Art von fortschrittlicher Technologie ist als intelligente Automatisierung oder Hyperautomatisierung bekannt.
Wie können LLMs dabei helfen, eine neue IDP-Ära einzuleiten?
Viele haben die Hoffnung, dass LLMs all ihre Probleme lösen können, indem sie Einblicke aus ihren umfangreichen, aber oft unorganisierten und verstreuten Daten liefern. Damit ein LLM jedoch den gewünschten Kontext versteht, werden die richtige Datengrundlage und Wissensbasis benötigt. Hier kommt die Technik der Kontextinjektion ins Spiel.
Bei der Kontextinjektion wird der Benutzeraufforderung automatisch zusätzliches Wissen hinzugefügt, wodurch das Modell inhaltsbewusst wird, bevor es mit dem LLM interagiert. Wie bereits erwähnt, dienen den derzeit diskutierten LLMs Texte aus dem Internet als Datengrundlage. Um sicherzustellen, dass das Modell innerhalb der Grenzen und des Kontexts eines Unternehmens funktioniert, kann die Bedeutung genauer Modelle nicht hoch genug eingeschätzt werden. Um dies zu erreichen, müssen Unternehmen ihre Wissensdatenbanken mit genauen Daten füllen, bevor sie sich in den Bereich der generativen KI wagen, ohne dabei auf die möglichen Fallstricke zu stoßen.
Um dies zu erreichen, insbesondere bei großen Datenmengen, die in Dokumenten enthalten sind, ist die intelligente Dokumentenverarbeitung (IDP) entscheidend. Durch den Einsatz von maschinellem Lernen und KI-Techniken, die speziell darauf zugeschnitten sind, die Bedeutung von Dokumenten zu extrahieren, können Unternehmen die Wissensbasis aufbauen. Das ist nötig, wenn man generative KI sinnvoll nutzen möchte.
Beispielsweise hat ABBYY bereits erfolgreich seine IDP-Lösung mit ChatGPT verbinden können, um zu zeigen, wie die Kombination dieser beiden Technologien Unternehmen dabei helfen kann, dokumentenbasierte Prozesse zu automatisieren und gleichzeitig die Kundenerfahrung zu verbessern. IDP kann demnach die Grundlage bieten um Daten aus verschiedenen Dokumenten, wie Rechnungen oder Verträgen, zu extrahieren. Diese Daten können dann in ein LLM wie ChatGPT, das darauf trainiert ist auf Benutzeranfragen in Bezug auf diese Daten zu antworten, eingespeist werden.
Zum Beispiel könnte ein Benutzer Fragen zu einer bestimmten Vertragsklausel stellen und erhält quasi in Echtzeit eine passende Antwort. Einerseits resultiert diese Integration in einer besseren Anwendererfahrung, indem Wartezeiten verkürzt werden und nötige Antworten schneller und genauer geliefert werden. Andererseits folgt daraus ein besseres Verständnis der Daten, was somit eine verbesserte Entscheidungsfindungen und bessere Geschäftsergebnisse ermöglicht.
Maxime Vermeir ist Senior Director AI Strategy bei ABBYY.