Artikel
Verständnis der Retrieval-Augmented Generation (RAG) auf GCP

Retrieval-Augmented Generation (RAG) ist eine Schlüsseltechnik, die eine breitere und vertrauenswürdigere Anwendung ermöglicht von großen Sprachmodellen (LLMs). Durch die Integration externer Wissensquellen behebt RAG die Einschränkungen von LLMs, wie z. B. veraltete Wissen und halluzinierte Reaktionen. In diesem Webinar, Jeroen Overschie, a Machine Lverdienen Engineer bei Xebia Daten, explerklärt, wie RAG funktioniert indem er vier Ebenen durchläuft verschiedenen Ebenen der Komplexität. Jeroen nimmt Sie mit auf die RAG Anwendungen, und ihre Implementierungen auf der Google Cloud Platform (GCP).
Jeroen teilte mit: "RAG ermöglicht es LLMs, die Box der statischen Daten innerhalb des Modells zu verlassen. Es erlaubt Ihnen, Daten einzufügen, die dem Modell vorher nicht bekannt waren. Lassen Sie uns näher darauf eingehen, wie RAG ein praktisches Werkzeug für datengesteuerte Systeme sein kann.
Sehen Sie sich das Webinar jetzt an!
Wichtigste Erkenntnisse
- RAG in Stufen der Komplexität: RAGs können kompliziert werden. Beginnend mit der Basisstufe ist die Vektorsuche oft eine Schlüsselkomponente für eine RAG-Einrichtung. In diesem Vortrag führt Jeroen Sie durch 4 Stufen bis hin zur multimodalen Nutzung von LLMs für Ihre RAG-Einrichtung.
- Skalierbarkeit: Die GCP-Tools bieten eine einheitliche Plattform für den Aufbau, die Verwaltung und die Skalierung von RAG-Systemen.
- Praktische Anwendung für die Entscheidungsfindung: RAG verbessert die praktische Anwendung von KI, indem es genaue, Echtzeit- und umsetzbare Erkenntnisse liefert.
Warum RAG verwenden?
Ohne RAG sind die Interaktionen mit LLMs durch den Umfang ihrer Trainingsdaten begrenzt. Auf die Frage nach den Ergebnissen eines Europameisterschaftsspiels im Jahr 2024 antwortete das bis September 2021 trainierte Gemini-Modell von Google beispielsweise, dass es kein solches Ereignis gebe. Das ist natürlich nicht der Fall. Dies zeigt entscheidende Grenzen auf:
- Veraltetes Wissen: Modelle verlassen sich ausschließlich auf ihre Trainingsdaten, so dass sie keine Kenntnis von Ereignissen oder Aktualisierungen nach dem Training haben.
- Kein Zugriff auf interne Daten: Ohne Zugang zu proprietären Datensätzen oder internen Unternehmensdokumenten sind die Antworten allgemein und nicht personalisiert.
- Halluzinationen: Wenn ein Modell nicht die richtige Antwort weiß, fabriziert es plausibel klingende, aber ungenaue Antworten.
Vorteile von RAG
RAG verändert diese statische Interaktion, indem es externe Quellen in Echtzeit einbezieht und so genauere und relevantere Antworten gewährleistet. Die wichtigsten Vorteile sind:
- Aktuelles Wissen: Der Zugang zu Echtzeitdaten liefert aktuelle und zuverlässige Informationen.
- Sachliche Antworten: Indem die Antworten auf überprüfbaren Daten beruhen, minimiert RAG Halluzinationen.
- Interner Datenzugriff: Die Integration mit unternehmenseigenen Daten gewährleistet maßgeschneiderte und kontextbezogene Ergebnisse.
Dadurch wird sichergestellt, dass die Nutzer nicht nur genaue, sondern auch umsetzbare Antworten erhalten, was das Vertrauen und die Benutzerfreundlichkeit erhöht.
Stufen der RAG-Implementierung auf GCP
Stufe 1: Grundlegende RAG
Diese Stufe umfasst die Dokumentensuche mit Hilfe der Vektorsuche und die Generierung von Antworten über eine Eingabeaufforderung, die den abgerufenen Kontext enthält. Es werden Kernkonzepte wie Einbettungen, Vektordatenbanken und Prompt-Engineering eingeführt. Das Chunking von Text in kleinere Einheiten vor der Einbettung verbessert die Leistung und ermöglicht Zitate.
Ebene 2: Hybride Suche
Diese Ebene kombiniert die Vektorsuche mit der Schlagwortsuche (TF-IDF oder BM-25) unter Verwendung der Reciprocal Rank Fusion. Dieser Ansatz verbessert die Abrufgenauigkeit, insbesondere wenn bestimmte Schlüsselwörter entscheidend sind.
Stufe 3: Fortgeschrittene Datenformate
Diese Stufe konzentriert sich auf den Umgang mit komplexen Formaten wie PDF, HTML und Word. Der Schwerpunkt liegt auf spezialisiertem Parsing, insbesondere für Tabellen, oft unter Einbeziehung von Computer-Vision-Techniken und Markdown-Konvertierung für ein besseres LLM-Verständnis.
Ebene 4: Multimodale Modelle
Diese Stufe nutzt multimodale Modelle wie GPT-4o, die Bilder und Text verarbeiten können. Die Verwendung von PDF-Seiten als Bilder direkt in Prompts kann die Genauigkeit bei Inhalten, die sich nur schwer in Textform darstellen lassen, verbessern, allerdings zu höheren Kosten.
Aufbau von RAG-Systemen mit GCP
RAG-Implementierungen variieren je nach Flexibilität und Managementanforderungen:
- Flexibler Ansatz - Kombinieren Sie einzelne Tools wie Document AI, Vertex AI Vector Search und Gemini für volle Kontrolle und Anpassung.
- Verwalteter Ansatz - Nutzen Sie integrierte Dienste wie Vertex AI Search, die das Abrufen und die Generierung von Antworten übernehmen und so die Systemarchitektur vereinfachen.
GCP-Tools für den Aufbau eines RAG-Systems
Um ein effizientes und skalierbares Retrieval-Augmented Generation (RAG) System aufzubauen, bietet Google Cloud Platform (GCP) mehrere leistungsstarke Tools, die sich nahtlos integrieren lassen. Diese Dienste vereinfachen die Entwicklung und sorgen gleichzeitig für hohe Leistung, Sicherheit und Flexibilität.
Cloud Run: API-Hosting
Cloud Run ist eine vollständig verwaltete Rechenplattform, die für die Ausführung von containerisierten Anwendungen in großem Umfang konzipiert wurde. Sie ermöglicht es Entwicklern, APIs, wie z.B. den Endpunkt für die Abfrage eines RAG-Systems, mit minimalem Overhead zu hosten.
Wesentliche Merkmale :
- Serverlose Ausführung : Skaliert bei hohem Datenverkehr automatisch nach oben und bei Leerlaufzeiten nach unten, um die Kosten zu senken.
- Sprach-Agnostiker : Unterstützt jede beliebige Programmiersprache und jedes beliebige Framework und ist damit vielseitig für verschiedene Anwendungen einsetzbar.
- Integrierte Sicherheit : Integrierte HTTPS-Unterstützung und Identitäts- und Zugriffsmanagement (IAM) für sicheren API-Zugriff.
- Anwendung : In einem RAG-System kann Cloud Run die abfrageverarbeitende API hosten, die Benutzereingaben empfängt, sie verarbeitet und erweiterte Antworten zurückgibt.
Beispiel : Die auf Cloud Run gehostete API dient als Gateway zum RAG-System. Sie nimmt die Fragen der Benutzer entgegen und verwaltet die Interaktion mit den Komponenten zum Abrufen von Dokumenten und zur Generierung von Antworten.
Vertex AI: Einbettung und Vektorsuchfunktionalität
Vertex AI ist die einheitliche Plattform von GCP zum Erstellen, Bereitstellen und Verwalten von Modellen für maschinelles Lernen. Sie spielt eine zentrale Rolle bei der Einbettung der Erstellung und Vektorsuche in RAG-Systeme.
Wesentliche Merkmale :
- Einbettungen : Konvertiert Textdaten (Fragen und Dokumente) in hochdimensionale Vektoren, die die semantische Bedeutung erfassen.
- Vektorielle Ähnlichkeitssuche : Ermöglicht die effiziente Suche nach relevanten Dokumenten durch den Vergleich von Einbettungen.
- Anpassbare Modelle : Unterstützt vortrainierte Einbettungsmodelle wie Text Embedding Gecko und benutzerdefinierte Modelle, die auf bestimmte Datensätze zugeschnitten sind.
- Skalierbarkeit : Bewältigt große Datenmengen und komplexe Suchanfragen mit geringer Latenzzeit.
- Anwendung : In einem RAG-System wird Vertex AI verwendet, um Benutzeranfragen und Dokumente in ein numerisches Format einzubetten und Ähnlichkeitssuchen durchzuführen, um die relevantesten Dokumente zu finden.
Beispiel: Wenn ein Benutzer fragt: "Wie hoch ist die Nutzlastkapazität der Falcon 9 Rakete zum Mars?" Vertex AI gleicht die Einbettung der Frage mit Einbettungen von Dokumentfragmenten ab, um das relevanteste Dokument zu finden.
Cloud-Speicher: Sichere Speicherung von Dokumenten
Cloud Storage bietet eine skalierbare und sichere Lösung für die Speicherung von Dokumenten und Daten, die in einem RAG-System verwendet werden. Er unterstützt eine Vielzahl von Dateiformaten und ist damit ideal für die Verwaltung unstrukturierter und halbstrukturierter Daten.
Wesentliche Merkmale :
- Hohe Widerstandsfähigkeit : Garantiert 99,999999999% (11 Neunen) Haltbarkeit für gespeicherte Daten.
- Zugangskontrolle : Fein abgestimmte IAM-Richtlinien zur Verwaltung der Personen, die gespeicherte Inhalte anzeigen oder ändern können.
- Globale Verfügbarkeit : Ermöglicht die Speicherung von Daten in mehreren Regionen für den weltweiten Zugriff mit geringer Latenz.
- Integration mit anderen GCP-Diensten : Arbeitet nahtlos mit Tools wie Vertex AI und Document AI für die nachgelagerte Verarbeitung zusammen.
- Anwendung : In einem RAG-System wird der Cloud-Speicher verwendet, um die Dokumente, Datensätze oder PDFs zu speichern, die zur Kontexterweiterung abgefragt und abgerufen werden.
Schlusswort
Wir haben RAG in 4 Komplexitätsstufen erforscht. Wir sind vom Aufbau unserer ersten einfachen RAG zu einer RAG übergegangen, die multimodale Modelle nutzt, um Fragen auf der Grundlage komplexer Dokumente zu beantworten. Jede Stufe bringt neue Komplexitäten mit sich, die auf ihre eigene Weise gerechtfertigt sind. Zusammengefasst sind die RAG-Stufen:
- Stufe 1 - Basis-RAG - Die Hauptschritte von RAG sind 1) Abruf und 2) Generierung. Wichtige Komponenten hierfür sind Einbettung, Vektorsuche unter Verwendung einer Vektordatenbank, Chunking und ein Large Language Model (LLM).
- Stufe 2 - Hybride Suche - Die Kombination von Vektorsuche und Schlagwortsuche kann die Abrufleistung verbessern. Die Suche nach spärlichem Text kann mit: TF-IDF und BM- 25. Reciprocal Rank Fusion kann verwendet werden, um zwei Suchmaschinen-Rankings zusammenzuführen.
- Level 3 - Erweiterte Datenformate - Unterstützt Formate wie HTML, Word und PDF. PDF kann Bilder, Diagramme, aber auch Tabellen enthalten. Tabellen benötigen eine gesonderte Behandlung, z.B. mit Computer Vision, um die Tabelle dann dem LLM als Markdown zur Verfügung zu stellen.
- Ebene 4 - Multimodal - Multimodale Modelle können Audio, Bilder und sogar Video verarbeiten. Solche Modelle können bei der Verarbeitung komplexer Datenformate helfen, indem sie z.B. PDFs als Bilder in das Modell einspeisen. Wenn die zusätzlichen Kosten den Nutzen wert sind, können solche Modelle unglaublich leistungsfähig sein.
RAG ist eine sehr leistungsfähige Technik, die Unternehmen viele neue Möglichkeiten eröffnen kann. Die RAG-Ebenen helfen Ihnen dabei, die Komplexität Ihrer RAG zu verstehen und zu erkennen, was mit RAG schwierig und was einfacher zu machen ist. Also: Was ist Ihr Niveau?
Wir wünschen Ihnen viel Erfolg beim Aufbau Ihrer eigenen RAG.
Unsere Ideen
Weitere Artikel
Contact




