Blog

KI-Revolution bei der Datenextraktion: Strukturierung von E-Mails, PDFs und Videos

Lassen Sie uns einige der realen Anwendungsfälle erkunden, die sich aus diesem Gespräch ergeben und die zeigen, wie generative KI das Mögliche neu definiert.

Klaudia Wachnio

Aktualisiert März 17, 2026

8 Minuten

Jahrelang war das Versprechen von künstlicher Intelligenz im Geschäftsleben zwar verlockend, aber leider für viele unerreichbar. Die Visionen von vollautomatischen Systemen stießen auf die harte Realität brüchiger Regeln, inkonsistenter Datenformate und der immensen Kosten für das Training maßgeschneiderter Modelle. Die Datenextraktion, d.h. die kritische Aufgabe, strukturierte Informationen aus unstrukturierten Quellen wie E-Mails, Dokumenten und Bildern herauszuziehen, schien ein arbeitsintensiver Engpass zu sein.

In unserem neuesten Video, "KI in der Praxis: Schadenbearbeitung, Video-Labeling & skalierbare KI-Anwendungsfälle" beobachten wir, wie sich ein grundlegender Wandel vollzieht. Das Aufkommen leistungsstarker, multimodaler großer Sprachmodelle (LLMs) verwandelt die Datenextraktion von einer eingeschränkten, technischen Herausforderung in eine flexible und revolutionäre Fähigkeit. Wir bewegen uns schnell von einer Welt der manuellen Eingabe und starren Vorlagen zu einer Welt, in der KI den Kontext verstehen, das Layout interpretieren und Schlussfolgerungen über den Inhalt ziehen kann. Auf diese Weise können wir Chaos in Klarheit verwandeln.

Lassen Sie uns einige der realen Anwendungsfälle erkunden, die sich aus diesem Gespräch ergeben und die zeigen, wie generative KI das Mögliche neu definiert.

Die alte Grenze: Regeln, Vorlagen und Langeweile

Traditionell musste man bei der Extraktion von Daten einen von zwei Wegen einschlagen. Für hochvolumige, vorhersehbare Dokumente konnten Unternehmen in komplexe regelbasierte Systeme oder optische Zeichenerkennung (OCR) investieren, die auf bestimmte Formularlayouts abgestimmt waren. Für alles andere, d.h. die oft unvorhersehbaren erzählerischen Inhalte, war die Lösung einfach: Menschen, die sich die Finger wund arbeiten. Wie ein Versicherungsangestellter, der die lange E-Mail eines Kunden mit einer Unfallbeschreibung manuell liest, oder ein Analyst, der einen 300-seitigen Finanzbericht nach einer bestimmten Kennzahl durchforstet.

Wie Jeroen anmerkt, gab es zwar einige Techniken, wie z.B. die Named Entity Recognition (NER), aber diese erforderten oft ein individuelles Training auf domänenspezifischen Datensätzen, ein Prozess, der zeitaufwändig, teuer und eng begrenzt war. Das Modell, das entwickelt wurde, um Kundennamen in Versicherungsansprüchen zu finden, konnte dem Menschen, der sich an einen Computer setzte, um eine Lieferantenrechnung zu analysieren, nicht helfen. Diese Situation besteht seit mehreren Jahrzehnten.

Das neue Paradigma: Prompt als Konfiguration, LLM als Interpreter

Die wichtigste Änderung bei der generativen KI, erklärt Jeroen, besteht darin, dass "wir nicht vortrainieren... wir können [das Modell] als API nutzen". Das Domänenwissen wird nicht mehr durch langwieriges Training in die Gewichte des Modells integriert, sondern wird direkt in die Eingabeaufforderung eingefügt. Das bedeutet, dass ein einziges, leistungsstarkes Modell durch Anweisungen angepasst werden kann, um Beruf, Unfalltyp und Schweregrad aus einer Versicherungs-E-Mail zu extrahieren. Dasselbe Modell kann dann mit einer anderen Eingabeaufforderung finanzielle KPIs aus einem Jahresbericht extrahieren.

Natürlich handelt es sich nicht um Zauberei. "Sie müssen die Einrichtung einer geeigneten Auswertungspipeline berücksichtigen", mahnt Jeroen. Aber die Entwicklungszeit ist drastisch kürzer, die Flexibilität ist größer und die Qualität der Extraktion kann ältere Methoden übertreffen, insbesondere wenn wir es mit komplexen, narrativen Daten zu tun haben.

Schauen wir uns einige praktische Anwendungsfälle an.

Anwendungsfall 1 - Umwandlung von Versicherungsansprüchen mit E-Mails und Vektorsuche

Das Team arbeitete mit einer Versicherungsgesellschaft zusammen, um einen Teil des Schadenprozesses zu automatisieren. Zuvor hatte ein Mitarbeiter eine lange, unstrukturierte E-Mail von einem Kunden erhalten, in der ein Unfall beschrieben wurde. Sie mussten sie dann manuell lesen, alle Details verstehen und mühsam eine Datenbank nach ähnlichen Schadensfällen in der Vergangenheit durchsuchen, um eine angemessene Auszahlung zu ermitteln.

Der neue KI-gesteuerte Prozess ist zweigeteilt und zeigt sowohl die Extraktion als auch die Verbesserung:

Strukturierte Extraktion: Ein LLM liest die E-Mail des Kunden und extrahiert strukturierte Schlüsselfelder wie den Beruf des Kunden, das Alter, die Art des Unfalls und die Schwere (z.B. leicht, mittel, schwer). Dadurch wird ein Textblock in einen abfragbaren Datenpunkt umgewandelt.

Intelligentes Abrufen: Diese strukturierten Daten werden dann verwendet, um die ähnlichsten vergangenen Fälle in der Datenbank zu filtern und zu finden. Darüber hinaus wird der gesamte E-Mail-Text in eine Vektoreinbettung umgewandelt, um eine semantische Ähnlichkeitssuche durchzuführen und Fälle zu finden, die sich kontextuell ähneln und nicht nur mit Schlüsselwörtern übereinstimmen.

Das Ergebnis ist keine vollständige Automatisierung, sondern vielmehr eine massive Beschleunigung. Der menschliche Schadenregulierer wird nun unterstützt, indem ihm strukturierte Daten und ähnliche Fälle sofort vorgelegt werden, so dass er sich auf die endgültige Beurteilung und komplexe Ausnahmen konzentrieren kann.

Anwendungsfall #2: Prüfung umfangreicher Dokumente mit multimodalem Verständnis

Der zweite Anwendungsfall dringt in echtes multimodales Gebiet vor. Ein Kunde musste lange, komplexe Jahresberichte mit mehreren tausend Seiten prüfen, um spezifische Fragen zur Leistung zu beantworten.

Hier ist die entscheidende Erkenntnis: Wenn ein Modell wie Gemini von Google eine PDF-Datei verarbeitet, behandelt es oft jede Seite als ein Bild. Dadurch wird eine tiefgreifende Fähigkeit freigesetzt. Wie Jeroen betont, "da PDFs keine vorhersehbare Struktur haben, können sie genauso gut wie ein Bild behandelt werden." Moderne multimodale LLMs verfügen über ein außergewöhnliches OCR- und Layout-Verständnis, das es ihnen ermöglicht, Tabellen, Diagramme und fließenden Text in verschiedenen Dokumentenformaten zu erkennen.

Hier fungiert die KI als ein überladener Recherche-Assistent. Geben Sie ihr das 3.000-seitige PDF-Dokument und eine Liste von Prüfungsfragen. Sie scannt das gesamte Dokument und liefert einen Entwurf der Antworten. Entscheidend ist, dass sie auch Zitate liefert , die auf die genaue Seite oder den Abschnitt verweisen, wo die Informationen gefunden wurden. "Dies ist ein Beispiel dafür, dass wir nicht die ganze Verantwortung dem LLM überlassen", betont Jeroen. Der menschliche Prüfer erhält einen vollständigen, zeitsparenden Entwurf mit überprüfbaren Quellen, wodurch der Prozess von der manuellen Suche zur intelligenten Validierung übergeht.

Anwendungsfall #3: Dekonstruktion von Videoinhalten mit KI

Das komplexeste Beispiel zeigt, wie generative KI mehrere Techniken zusammenführt. Für ein Medienunternehmen (AVRO) bestand das Ziel darin, Talkshow-Episoden automatisch zu analysieren, um zu verstehen, welche Themen und Redner das Engagement der Zuschauer fördern und sie anziehen.

Dies war kein einzelner LLM-Aufruf. Es war eine ganze Pipeline:

Audio zu Text: Der Ton des Videos wurde mit Zeitstempeln transkribiert.

Erstellung von Kapiteln: Ein LLM analysierte das Transkript, um logische Kapitel zu erstellen und die Sendung in verschiedene Themen mit Start- und Endzeiten zu unterteilen.

Visuelle Analyse: Ein traditionelles, spezialisiertes Gesichtserkennungsmodell identifizierte jede Person in jedem Bild. Eine ausgeklügelte Logik (z. B. die Messung des Anteils des Bildschirms, den ein Gesicht einnimmt) filterte Personen im Hintergrund heraus, um sich auf die Hauptsprecher zu konzentrieren.

Clustering von Gesichtern: Die Einbettungen der erkannten Gesichter wurden gruppiert, um einzigartige Personen in der Episode zu identifizieren.

Synthese: All diese Daten wurden in einem Dashboard mit den Protokollen der Zuschauerzahlen kombiniert. Das Ergebnis? Das Medienunternehmen konnte zum Beispiel sehen, dass ein Beitrag über erneuerbare Energien mit einem bestimmten Gast bei der 22-Minuten-Marke das Zuschauerinteresse steigerte.

Dieser Anwendungsfall ist eine Meisterklasse in pragmatischer KI: Für jede Aufgabe gibt es das richtige Werkzeug. Er kombiniert das erzählerische Verständnis eines LLM für Kapitel, die Präzision eines speziellen Computer-Vision-Modells für Gesichter und die analytische Leistung von Embeddings für das Clustering, alles in einem einzigen, automatisierten Workflow, der nach einem Zeitplan abläuft.

Der Weg in die Zukunft: Assistiert, Autopilot oder autonom?

In all diesen Beispielen taucht ein durchgängiges Thema aus dem Gespräch im Video auf: die Bedeutung des"Menschen in der Schleife". Die Branche hat einen"Realitätscheck in Bezug auf Halluzinationen" hinter sich, und eine intelligente Implementierung baut Kontrollen und Ausgleiche ein.

Es wird ein pragmatischer Rahmen von vier Automatisierungsstufen diskutiert:

Stufe 0: Manuell (Mensch macht alles)

Stufe 1: Assistiert (Mensch steuert, KI hilft)

Stufe 2: Autopilot (KI steuert, Mensch überwacht)

Stufe 3: Autonom (Vollständig automatisiert)

Der meiste Wert entsteht heute, wie in diesen Anwendungsfällen zu sehen ist, durch den Wechsel vom manuellen zum assistierten Fahren oder zum Autopiloten. Der Sprung zur vollständigen Autonomie erfordert oft einen unverhältnismäßig hohen Aufwand und führt zu abnehmenden Erträgen. Das Ziel ist es, pragmatisch zu sein: Verwenden Sie generative KI, um den Großteil der kognitiven Last (Lesen, Extrahieren, Synthetisieren) zu schultern, während Sie die kritische Validierung, die komplexe Beurteilung und die endgültige Genehmigung in den Händen des Menschen belassen. Das schafft Vertrauen, sichert die Qualität und bringt eine immense Zeitersparnis, ohne dass das Unternehmen auf eine fehlerfreie KI setzen muss.

In der Ära der generativen KI geht es nicht darum, Menschen durch Roboter zu ersetzen. Es geht darum, Fachleuten eine leistungsstarke neue Linse an die Hand zu geben, um Strukturen im Unstrukturierten zu erkennen, Signale im Rauschen zu finden und das Mühsame zu automatisieren, damit sie sich auf das konzentrieren können, was sinnvoll ist. Von E-Mails bis hin zu Video-Feeds - die Datenextraktion ist erst der Anfang.

Sind Sie bereit, diese Konzepte in Aktion zu sehen und die vollständige, detaillierte Diskussion zu hören? Sehen Sie sich das komplette Video an hierfür ein ausführliches Gespräch über KI-Anwendungsfälle, in dem wir diese Implementierungen aufschlüsseln, Leitplanken und Bewertung diskutieren und die Zukunft von KI in der Produktion erkunden.

Tags: