Blog

Führen Sie Ihr erstes, privates Large Language Model (LLM) auf der Google Cloud Platform aus.

Michał Bryś

Aktualisiert Oktober 15, 2025
10 Minuten

Was sind große Sprachmodelle (LLMs)?


Sie möchten einen privaten LLM-basierten Assistenten erstellen, um die Zusammenfassung des Finanzberichts zu generieren. Obwohl große Sprachmodelle wie GPT inzwischen häufig verwendet werden, ist es nicht einfach, ein solches Modell zu erstellen, das die Informationen für Ihr Unternehmen geheim hält. In diesem Blogbeitrag erkläre ich Ihnen, welche Herausforderungen Sie überwinden müssen, wie Sie einen persönlichen LLM-basierten Assistenten aufbauen können und vor allem: wie Sie dies auf der Google Cloud Platform tun können.


Large Language Models haben in den letzten Monaten viel Aufmerksamkeit erregt. Einerseits handelt es sich um eine bahnbrechende Technologie, die die Hürde für die Verwendung von Modellen des maschinellen Lernens für jeden, auch für nicht-technische Benutzer, senkt.Viele Implementierungen von Large Language Models, wie GPT oder Llama, sind kostenlos erhältlich, und für den Einstieg sind keine besonderen Kenntnisse erforderlich. Sie öffnen eine Webanwendung und interagieren mit dem trainierten LLM-Modell unter Verwendung einer menschlichen Sprache, um Textinhalte zu erzeugen. Weitere Einzelheiten finden Sie in unserem Artikel: Finden Sie Ihren Weg durch den Hype um große Sprachmodelle.


Überlegungen


Andererseits ergeben sich einige Überlegungen, wenn Sie diese Technologie für mehr als nur zum Spielen verwenden möchten. Ist es sicher, sensible Daten als Eingabeaufforderung einzugeben? Kann ich es verwenden, ohne gegen die Richtlinien meines Unternehmens für externe Tools zu verstoßen? Behalte ich die Kontrolle über die Daten, die ich weitergebe? Lassen Sie uns diesen Aspekt der Verwendung von LLMs betrachten und die private Nutzung dieser Technologie demonstrieren.


Privatsphäre/Datenschutz


Es gibt leicht verfügbare Webanwendungen, mit denen Sie kostenlos mit LLMs interagieren können. Wenn Sie eine davon nutzen möchten, sollten Sie jedoch immer die Bedingungen des Dienstes überprüfen. Sie sollten keine sensiblen Daten in den Chat eingeben, da der Dienst diese möglicherweise zum Trainieren zukünftiger Modellversionen verwendet und sie so allen Modellnutzern zugänglich macht. Das beliebteste und großartigste Tool, ChatGPT, behauptet beispielsweise, dass es Ihre Unterhaltungen zur Verbesserung seiner Modelle verwenden kann.


Die über die OpenAI-API übermittelten Daten werden nicht dazu verwendet, OpenAI-Modelle zu trainieren oder das Serviceangebot von OpenAI zu verbessern. Daten, die über die Nicht-API-Verbraucherdienste ChatGPT oder DALL-E übermittelt werden, können zur Verbesserung unserer Modelle verwendet werden.(Quelle)


Um die Weitergabe sensibler Daten zu vermeiden, sollten Sie eine API verwenden, um mit dem Dienst zu kommunizieren. Allerdings ist dies für Anfänger weniger bequem und erfordert eher technische Kenntnisse als eine einfache, freundliche Benutzeroberfläche.


Kosten der LLM-Modellschulung


Sie könnten ein LLM-Modell von Grund auf in Ihrer Infrastruktur trainieren. Leider ist das nicht so einfach, wie es scheint. Die Vorbereitung Ihres LLM-Modells erfordert umfangreiche Daten, eine robuste Computerinfrastruktur und spezifisches Wissen. Ein Teil des Datensatzes für das Training des GPT3-Modells, der Common Crawl-Datensatz, war beispielsweise 45 TB groß, und die Trainingszeit auf dem großen Cluster dauerte Tage(Quelle). Kleine Unternehmen verfügen möglicherweise nicht über das Budget und die Fähigkeiten, um dies von Grund auf zu tun. Vor allem, wenn Sie nur evaluieren möchten, ob LLM-Modelle für Ihre Geschäftsfälle hilfreich sein könnten, ist es vielleicht am besten, mit Open-Source-Modellen zu beginnen.


Beispielhafte Anwendungsfälle


Unsere Kunden fragen uns oft nach Beispielen für kommerzielle Anwendungsfälle der LLMs in ihren Unternehmen. Nachstehend finden Sie eine kurze Liste der Anwendungen. Da sich die LLM-Technologie jedoch noch in der Forschungsphase befindet, sollten Sie die bereitgestellten Ergebnisse prüfen, bevor Sie sie einsetzen.


Unterstützung bei der Gewinnung von Erkenntnissen


Sie können eine generische Frage stellen, das LLM-Modell kann die SQL-Abfrage in die Datenbank einbauen und die Ergebnisse für Sie visualisieren. Dies ist eine gute Möglichkeit, den Datenzugriff im gesamten Unternehmen zu demokratisieren, insbesondere um weniger technischen Benutzern den Zugang zu ermöglichen.

xebia-oss-insight-llmBildquelle: OSS Insight


Unterstützung beim Schreiben von Code


Die andere LLM-Anwendung ist die Unterstützung bei der Codegenerierung. Sie können das Large Language Model in Ihre IDE integrieren und um Hilfe beim Schreiben des Codes bitten, indem Sie die Codeanweisungen und die erwartete Ausgabe beschreiben. Daraufhin wird das Modell den Code in der von Ihnen gewünschten Programmiersprache generieren.

xebia-github-capilot-llmBildquelle: GitHub Copilot https://github.com/features/copilot

Unterstützung bei kundenspezifischen Aufgaben mit dem auf eigenen Daten trainierten Modell


Über die allgemeinen Anwendungsfälle hinaus gibt es proprietäre Modelle, die Sie für bestimmte Aufgaben verwenden können und die das entsprechende Fachwissen enthalten. Kürzlich wurden spezielle Modelle für die Finanzanalyse, das Gesundheitswesen oder die Informationssicherheit entwickelt.

modell-xebia-llmBildquelle: BloombergGPT

Führen Sie Ihr privates LLM-Modell aus


Wir brauchen Alternativen zu den auf dem Markt erhältlichen Webanwendungen, um unsere Überlegungen bei der Verwendung von LLM-Modellen zu berücksichtigen. Glücklicherweise gibt es Open-Source-LLM-Modelle (wie GPT). Mit ihnen können wir auf sichere und private Weise evaluieren, ob sie für den Anwendungsfall unseres Unternehmens geeignet sind, ohne proprietäre Informationen mit externen Anbietern auszutauschen, und die hohen Kosten für die Erstellung des LLM-Modells von Grund auf vermeiden.


Der Anwendungsfall im Überblick: Fassen Sie die Tabelle mit den Finanzdaten zusammen


Lassen Sie uns den privaten Assistenten mit LLM-Modellen unter der Haube vorbereiten, um die Textzusammenfassung der Datentabellen mit den Umsatzinformationen des Unternehmens (sensible Daten) zu erstellen.


Unser Ziel ist es, einen Assistenten zu erstellen, der aus der Datentabelle, die Informationen über die Unternehmenseinnahmen nach Jahren aufgeschlüsselt enthält, eine textliche Zusammenfassung erstellt. Dieser Assistent könnte Datenanalysten bei der Erstellung von Insights für die Jahresberichte unterstützen - eine normalerweise manuelle, zeitaufwändige Arbeit. Mit dem LLM-Modell erhält der Datenanalyst den Entwurf der Erkenntnisse auf Polnisch und bereitet das endgültige Wort vor. Wenn die LLM-Technologie in der Zukunft ausgereifter ist, können wir uns die vollautomatische Erstellung von Zusammenfassungen vorstellen.


Die Umsetzung: gpt4all - ein Ökosystem von Open-Source-Chatbots


Zunächst werden wir unseren privaten Assistenten lokal erstellen. Dies ist möglich, weil wir gpt4all verwenden - ein Ökosystem von Open-Source-Chatbots und den Open-Source-LLM-Modellen (siehe: Abschnitt Model Explorer: GPT-J, Llama), die von Forschergruppen und Unternehmen in die Gemeinschaft eingebracht wurden.


Wir können mit der Installation von GUI auf unserem lokalen Rechner beginnen, um die Anwendung schnell zu testen. Folgen Sie dazu diesem Abschnitt: https://github.com/nomic-ai/gpt4all#chat-client. Dort können Sie die Anwendung für Ihr Betriebssystem finden. Nach der Installation müssen Sie die ausgewählten Modelle herunterladen. Wählen Sie das Modell, das Ihren Anforderungen entspricht, und die Anwendung, einschließlich der Lizenz, aus. Hinweis: Bei den trainierten Modellen handelt es sich um große Dateien (3,5 GB bis 7,5 GB). Verwenden Sie daher eine schnelle und stabile Internetverbindung.


chat-model-llm-xebia
Sobald Sie die grafische Benutzeroberfläche und das Modell haben, können Sie damit beginnen, Ihre Datenzusammenfassungen zu erstellen.


Die Aufforderung


Da Sie mit LLM-Modellen in menschlicher Sprache interagieren können, werden Sie umso bessere Ergebnisse erzielen, je besser die Eingabeaufforderung ist, die Sie vorbereiten. Um das Modell bei der Analyse unserer Eingabedaten zu unterstützen, haben wir die folgende Eingabeaufforderung mit (synthetischen) Daten über den Umsatz eines E-Commerce-Unternehmens vorbereitet:

Here is the dataset with the historical e-commerce company revenue in USD by year in a markdown table:
```
|Year|Revenue|
|---|---|
|2001|15930.00$|
|2002|12766.00$|
|2003|21893​​.00$|
|2004|24922.00$|
|2005|358595.00$|
|2006|482503.00$|
|2007|541379.00$|
|2008|437635.00$|
|2009|777742.00$|
|2010|1240346.00$|
```
Please write an executive summary of this dataset.


Zusätzlich können Sie einige Folgefragen stellen, z. B:

What are 3 insights from this dataset?
When was the highest revenue increase? How high was it?
Can you summarize this dataset?
What trends do you see in this data?


Die Ergebnisse


Geben Sie nun die Eingabeaufforderung in die Chat-Oberfläche ein und warten Sie auf die Ergebnisse. Für die Demonstration haben wir `GPT4All-J v1.3-groovy` verwendet, das als das derzeit beste kommerziell lizenzierbare Modell, das auf GPT-J basiert und von Nomic AI auf dem neuesten kuratierten GPT4All-Datensatz trainiert wurde. Da das Modell offline auf Ihrem Rechner läuft, ohne Daten an den externen Endpunkt zu senden, kann es einige Zeit dauern, bis Sie die Zusammenfassung der Daten erhalten. Beachten Sie, dass die Qualität der Ergebnisse je nach dem von Ihnen gewählten Modell variieren wird. Hier sind wir an die Lizenz für die kommerzielle Nutzung gebunden.


chat-schnittstelle-xebia-llm

#RESPONSE: The dataset contains information on the revenue of a historical e-commerce company in USD for each year from 2001 to 2010. The table shows that the revenue increased steadily over time, with peaks in 2004 and 2007 before declining slightly in 2008.


Das Ergebnis ist nicht schlecht, und die Fakten sind mit einer Ausnahme korrekt - der Höhepunkt der Einnahmen war nicht 2004, sondern 2005. Das ist ein gutes Beispiel dafür, dass Sie die vom Modell gelieferten Ergebnisse immer überprüfen müssen. Als nächstes haben wir eine Folgefrage zu den Erkenntnissen hinzugefügt:

#QUESTION: What are 3 insights from this dataset? #RESPONSE: 1. The revenue of the company has been increasing steadily since 2001, indicating a strong growth trend for the industry. 2. There were two significant peaks in revenue during 2004 and 2007, suggesting that these years may have been particularly successful for the company. 3. However, there was a decline in revenue in 2008 before recovering slightly in 2009 and 2010. This suggests that the company faced challenges or setbacks in this year, but managed to bounce back over time.


Die Cloud-Instanz des Modells


Da die Arbeit mit LLMs umfangreiche Rechenleistung erfordert, muss Ihr lokaler Rechner für eine schnelle Interaktion mit den GPT-Modellen möglicherweise leistungsfähiger sein. Damit Ihr Unternehmen effizient mit GPT arbeiten kann, sollten Sie außerdem eine einzige, gemeinsam genutzte Instanz des Assistenten erstellen. Die private Cloud ist die beste Lösung für dieses Szenario.


Sofort einsatzbereite Tools für LLM


Beachten Sie, dass es bald spezielle Tools für Large Language Models auf der Google Cloud Platform geben wird (wie Generative aI Studio und Model Garden - auf der Google I/O 2023 als Public Preview angekündigt). Außerdem können Sie immer noch die externe API (d.h. OpenAI) verwenden. Aber um bei unserem Anwendungsfall des privaten GPT-Assistenten zu bleiben, werden wir eine Instanz in der privaten Cloud betreiben.


Die Infrastruktur


Lassen Sie uns nun demonstrieren, wie Sie private GPT-Modelle in der Cloud-Umgebung nutzen können. In unserem Basisszenario nutzen wir das Cloud Computing, um eine Infrastruktur (eine leistungsfähigere Computerumgebung als der lokale Rechner) bereitzustellen und die Nutzung privater GPT-basierter Assistenten durch mehrere Benutzer in einem Unternehmen zu ermöglichen.


Außerdem werden wir zur besseren Kontrolle und für mehr Konfigurationsmöglichkeiten den Python-Client für das GPT4All-Ökosystem verwenden.


Zunächst müssen wir eine Infrastruktur bereitstellen. Wir beginnen mit einer (benutzerverwalteten) Vertex AI Workbench-Instanz, die auf dem Ubuntu-Betriebssystem basiert. Unser Hauptvorteil besteht darin, dass wir die Recheninstanz mit mehr CPUs und RAM als auf einem lokalen Rechner hochfahren oder einige Hardwarebeschleuniger auswählen können (d.h. GPU oder die CPU-Plattform mit einigen spezifischen Erweiterungen der Befehlssatzarchitektur). Das hat Auswirkungen auf die Geschwindigkeit der Ergebnisgenerierung.


enviroment-gpu-vertexai-xebia
machine-type-gpu-xebia
Vertex AI Workbench-Notebooks laufen standardmäßig mit Python 3.7, und gpt4all erfordertPython 3.8+. Glücklicherweise können wir mit Conda zusätzliche Kernel zur Workbench hinzufügen. Dazu müssen Sie die Anweisungen im Jupyterlab-Terminal befolgen:

conda create -n python39 python=3.9 conda activate python39 conda install ipykernel ipython kernel install --name "python39" --user


Die Umwelt


Als nächstes müssen wir den Python-Client für gpt4all installieren.

pip install pygpt4all

Der Python-Client für die LLM-Modelle


Jetzt haben wir alles vorbereitet, um mit einem privaten LLM-Modell auf einer privaten Cloud zu interagieren. Erstellen Sie einfach ein neues Notebook mit dem Kernel Python 3.9:
notebook-python-xebia-llm
Und bitten Sie Ihren Assistenten, eine Zusammenfassung Ihrer Daten zu erstellen (github: https://gist.github.com/michalbrys/6ba99e91772504156df029cd40242437 )

from pygpt4all.models.gpt4all import GPT4All

model = GPT4All('./models/ggml-gpt4all-l13b-snoozy.bin')

p = """
Here is the dataset with the historical e-commerce company revenue in USD by year in a markdown table:
```
|Year|Revenue|
|---|---|
|2001|15930.00$|
|2002|12766.00$|
|2003|21893.00$|
|2004|24922.00$|
|2005|358595.00$|
|2006|482503.00$|
|2007|541379.00$|
|2008|437635.00$|
|2009|777742.00$|
|2010|1240346.00$|
```
Please write an executive summary of this dataset.
"""

for token in model.generate(p):
    print(token, end='', flush=True)

daten-zusammenfassung-xebia-llm
Spielen Sie ruhig mit den in gpt4all verfügbaren Konfigurationsparametern herum. Sie können die Anzahl der vom Modell verwendeten Threads erhöhen, das Modell im Speicher halten oder sogar zufällige Seeds für die Reproduzierbarkeit festlegen. Sie können weitere Geschwindigkeitsverbesserungen feststellen, wenn Sie die obigen Anweisungen im Jupyterlab-Terminal ausführen. Siehe die Dokumentation des Pakets: https://docs.gpt4all.io/gpt4all_python.html


Nächste Schritte


Herzlichen Glückwunsch! Sie haben gerade einen privaten GPT-gestützten Assistenten gestartet. Aber das ist erst der Anfang der Reise. Als nächsten Schritt können Sie in Erwägung ziehen, Ihre privaten Dokumente in den Modellkontext einzubeziehen, um bessere Ergebnisse zu erzielen, oder ihn in die anderen internen Systeme zu integrieren.


Wenn Sie mögliche LLM-Anwendungen in Ihrem Unternehmen oder andere datenbezogene Themen besprechen möchten, bei denen GetInData Ihnen helfen kann (einschließlich Advanced Analytics, Data-driven Organization Strategy, DataOps, MLOps und mehr), melden Sie sich bitte für ein kostenloses Beratungsgespräch an.

Verfasst von

Michał Bryś

Contact

Let’s discuss how we can support your journey.