Artikel
Google Cloud: Der größte Verbündete der datengesteuerten Organisation von heute

Die datengesteuerte Organisation ist leichter zu erreichen als je zuvor
Die Komplexität des maschinellen Lernens (ML) und der Datenanalyse hält Datenwissenschaftler und Ingenieure rund um die Uhr auf Trab. Gleichzeitig suchen die Unternehmen nach immer ausgefeilteren neuen Anwendungsfällen. Glücklicherweise werden die verfügbaren Tools und Umgebungen, die diese Arbeit erleichtern, ständig verbessert und erweitert, so dass die datengesteuerte Organisation heute viel leichter zu erreichen ist.
Viele datengesteuerte Unternehmen arbeiten mit leistungsstarken, aber hochkomplexen hybriden Umgebungen. Diese hängen von vielen unverzichtbaren Teilen ab: Automatisierung, Funktionsintegration und Prozessoptimierung. Datenwissenschaftler und -ingenieure benötigen Lösungen, die diese verschiedenen Teile integrieren und mehr Kontrolle bieten, mit möglichst vielen Tools, die ihre Abläufe minimieren und die Verwaltung vereinfachen. Mit diesen Lösungen können sie sich darauf konzentrieren, den Inhalt der Lernmodelle zu verbessern und stattdessen neue Datenanwendungen zu finden.
Da Google seit Jahren den Finger am Puls der datengesteuerten Wirtschaft hat, weiß es, was datenzentrierte Unternehmen brauchen. Das Unternehmen hat eine Vielzahl dieser Lösungen in verschiedenen Plattformen gebündelt. Dieser Artikel wirft einen detaillierten Blick auf drei dieser Umgebungen: die einheitliche MLOps-Plattform Vertex AI, die Anwendungsbereitstellungsplattform Anthos und das viel diskutierte Konzept für die moderne Datenplattform Data Mesh.
Vertex AI: Steuerung des gesamten ML-Lebenszyklus
Vertex AI, die frühere KI-Plattform, konsolidiert alle Funktionen des maschinellen Lernens in der Cloud.
"Vertex AI ist für jeden geeignet, der mit Daten arbeitet, aber es wird typischerweise von Dateningenieuren, Datenwissenschaftlern, ML-Entwicklern und ML-Ingenieuren verwendet", erklärt Diederik Greveling, CTO bei Xebia Data Solutions.
Vertex AI vereint viele Funktionen, die in vielen verschiedenen Szenarien eingesetzt werden können. Seine Tools können die Einführung von Modellen beschleunigen, die Verwaltung vereinfachen und MLOps durchführen. Am wichtigsten ist, dass diese Funktionen überwacht werden können, um sicherzustellen, dass sie auf die richtigen Modelle angewendet werden.
"Im Gegensatz zu DevOps kann das MLOps-Modell auch bei korrektem Code noch fehlerhaft arbeiten. Das liegt einfach daran, dass sich die Datenverteilung ändern kann", sagt Greveling, "deshalb wollen wir Abweichungen erkennen und die trainingsbedingte Schieflage dauerhaft lösen."
Vertex AI ist für vier Datenklassen geeignet: Bilder, Tabellen, Text und Video. Mit Vertex AI erstellen Sie einen Datensatz, trainieren das Modell, rollen es auf einen Endpunkt aus und erstellen Vorhersagen. Laut Roosenburg zeichnet sich Vertex AI vor allem dann aus, wenn Sie viele Modelle und Datenquellen haben. Die Plattform deckt das gesamte ML-Spektrum ab: Datenbereitstellung, Feature-Engineering, Training und Tuning, Modellbereitstellung, weitere Analyse, Edge, Modellüberwachung und Modellmanagement.
Einige Unternehmen, wie Banken und Versicherungen, müssen die Ergebnisse ihrer Modelle einer Aufsichtsbehörde erläutern können, so dass sie von detaillierten Erklärungen begleitet werden müssen. Aus diesem Grund werden der End-to-End-Zyklus und die Abfolge der Schritte immer wichtiger.
Ein wichtiger Teil ist die Funktionalität von Trainingsmodellen und Vorhersagen. Vertex AI kann vorgefertigte APIs für Unternehmen bereitstellen, die nicht über eigene Trainingsdaten verfügen. AutoML kann ein Modell automatisch erstellen, je nach den Bedürfnissen des Unternehmens. Wenn Ihr Unternehmen über eigene Daten verfügt, ist das genau das, was Greveling rät.
"Wenn hingegen die Leistung oder Präzision des Modells von Anfang an wichtiger ist, empfehle ich ein maßgeschneidertes Modell", sagt er.
Aber ein eingeführtes Modell ist nur der Anfang. Das Rückgrat ist die Pipeline, und Vertex AI bietet verwaltete Pipelines. Datenwissenschaftler können dann ihren eigenen Code im Jupyter-Notebook schreiben, und anderen wird eine grafische Darstellung präsentiert. "Auf diese Weise kann man wirklich sehen, was vor sich geht", sagt Greveling.
App-Modernisierung mit Anthos
Eine effektive Datenbereitstellung erfordert eine effiziente Anwendungsumgebung. Die hybride Wolke ermöglicht die Verarbeitung von Daten an dem am besten geeigneten Ort. Doch um dies optimal zu tun, müssen die Anwendungen selbst so kompakt und portabel wie möglich sein. Die Containertechnologie, wie Docker und Kubernetes, hat hierzu einen wichtigen Beitrag geleistet, indem sie ein Abstraktionspaket für die Anwendungsumgebung bereitstellt. Container sind viel leichter als ein vollständiges Betriebssystem und benötigen nur einen Bruchteil des Speichers. Außerdem booten sie schneller. Insbesondere Kubernetes verfügt über eine Vielzahl integrierter Funktionen und eignet sich daher gut für Umgebungen, in denen Anwendungsdaten ständig bewegt werden müssen.
Chris Ter Beke, ein Cloud-Berater bei Binx, erklärt: "Was Linux für die Virtualisierung war, ist Kubernetes für Container."
Aber Container bringen auch Herausforderungen mit sich, insbesondere bei der Verwaltung mehrerer Hosts. Das manuelle Einrichten einer Kubernetes-Umgebung erfordert viele komplexe Aktionen. Mit Anthos können Sie moderne Hybrid- und Multi-Cloud-Anwendungen entwickeln, ohne an eine bestimmte Infrastruktur gebunden zu sein. Die Plattform ermöglicht es Ihnen, Cluster mit einem Klick zu starten und alle Cluster und Workloads in einer Übersicht zusammenzufassen. Google hält die Cluster auch automatisch am Laufen. Anthos basiert auf GKE, der Kubernetes-Engine, die seit 2015 verfügbar ist. Sie ist zuverlässig, effizient und extrem leistungsstark, auch weil sie direkt in der Google Cloud läuft.
"Wir haben zwei Betriebsmodi: den Standardmodus und den GKE Autopilot", erklärt Ter Beke. "Der GKE Autopilot verwaltet die gesamte Infrastruktur des Clusters, einschließlich der Steuerung, der Node-Pools und der Nodes selbst. Der beste Modus hängt vom Anwendungsfall ab, aber Sie können den Modus für jeden Cluster wählen. Für Cluster auf Autopilot brauchen Sie nicht viel Wissen über Kubernetes. Sie brauchen nur zu klicken, und schon geht es los. Wenn Sie es benutzen, lernen Sie, Kubernetes zu verwalten", sagt er.
Anthos funktioniert nicht nur für alle Formen von On-Premise-Infrastrukturen und Clouds, sondern auch mit angeschlossenen Clustern, die bestehende Kubernetes-Umgebungen integrieren. Weitere Funktionen sind Cloud Run for Anthos (serverlose Umgebungsverwaltung), Anthos Config Management (für GitOps-Automatisierung) und Anthos Service Mesh (Routing- und Lastausgleichsmanagement). Anthos bietet Hybrid AI, eine Trainingsumgebung für KI- und ML-Modelle, die bereits trainierte KI-Modelle verwendet, sowie MLOps Lifecycle Management für datengesteuerte Unternehmen.
Data Mesh, die moderne Datenplattform
Data Mesh ist eine neue Denkweise über die Nutzung von Daten zur Schaffung von Geschäftswert.
Martijn van de Grift, ein Cloud-Berater bei Binx, erklärt warum: "Verschiedene Benutzergruppen arbeiten in unterschiedlichen Bereichen. Auf der einen Seite haben Sie die Geschäftsbereiche mit ihren eigenen Teams und Kenntnissen, die Daten als Nebenprodukt erzeugen. Auf der anderen Seite haben Sie Data Science-Teams, die für die Datenpipelines verantwortlich sind. Und in der Mitte haben Sie die bereichsunabhängigen Teams. Sie müssen das Data Warehouse und die Datenplattform verwalten. Es gibt gute Gründe für diese Aufteilung, aber das Problem ist, dass Wissen verloren geht, weil die Verantwortung für die Daten nicht bei den Teams liegt, die sie wirklich verstehen. Wenn die Data Science-Teams einen neuen Anwendungsfall einrichten wollen, müssen sie wissen, welche Daten sie verwenden können. Aber das Management-Team kennt die Antwort nicht, weil es nicht im Besitz der Daten ist. Sie werden von den Benutzern mit Datenquellen gefüttert und erhalten Anfragen von den Datenwissenschaftlern. Und genau hier entsteht ein Engpass."
Laut van de Grift löst Data Mesh dieses Problem durch die Dezentralisierung des Eigentums an den Daten und Pipelines.
Die Mitarbeiter, Prozesse und Technologien sind über alle Teams verteilt. "Anstelle dieser vertikalen Domänen erhalten Sie funktionsübergreifende Datenteams mit einem Dateningenieur, einem Softwareingenieur und dem Dateneigentümer", erklärt er. "Es geht darum, diese monolithische Struktur in domänenspezifische Dienste aufzubrechen, aber mit Daten anstelle von Diensten."
Mit dem Data Mesh bewahrt jedes Team sein Wissen durch seinen Data Engineer, der für die Datenpipelines verantwortlich ist. Die Rolle des Softwareingenieurs bleibt unverändert. Die Daten sind nicht mehr ein Nebenprodukt, sondern ein Hauptprodukt. Daher kommt eine neue Rolle hinzu: der Datenproduktbesitzer.
"Der Eigentümer des Datenprodukts muss es auch als Produkt verkaufen, sowohl an interne als auch an externe Kunden", erklärt van de Grift. "Die Daten bleiben für das Team verfügbar, aber die zentralen Teams kontrollieren weiterhin, wer Zugriff hat."
Dies führt natürlich zu einer starken Belastung durch das erforderliche Wissen innerhalb des Unternehmens. Eine Skalierung ohne die Einstellung zahlreicher zusätzlicher Dateningenieure ist daher von entscheidender Bedeutung. Hier kommt die Technologie ins Spiel.
Van de Grift erklärt: "Durch die Verwendung von Serverless und die Trennung der Speicherung wird die Verwaltung der Infrastruktur viel effizienter, so dass sich die Dateningenieure wirklich auf ihre Kernaufgaben konzentrieren können. Sie wollen einen verwalteten Service für das Hosting des Datenprodukts. Wenn Sie heute zwei Benutzer haben, aber in Zukunft hundert Benutzer, wollen Sie nicht ständig die Infrastruktur verwalten, um sie hoch- und runterzuskalieren. Das Gleiche gilt für Pipelines. Die Trennung von Speicher und Rechenleistung stellt sicher, dass verschiedene Teams auf dieselben Daten zugreifen, aber ihre eigenen Aktionen damit durchführen können."
Google Cloud integriert Dienste und übernimmt die Verwaltung
Indem Data Scientists und Data Engineers von Routineaufgaben wie Verwaltung und Wartung befreit werden, kann das gesamte Unternehmen große Schritte bei der Datenbereitstellung machen. Die Möglichkeiten werden auch immer deutlicher, da jetzt neue Plattformen und Konzepte auf den Markt kommen, die bestehende Lösungen kombinieren und die Arbeitsweise erheblich vereinfachen. Google ist in diesem Punkt ganz vorne mit dabei. Durch Google Cloud erhalten Unternehmen Lösungen und Konzepte, deren Umsetzung sonst sehr komplex und teuer wäre.
Unsere Ideen
Weitere Artikel

Amazon Bedrock AgentCore: die Laufzeitbasis für die Entwicklung, Bereitstellung...
Walter van der Scheer

Multi-Agenten-Systeme und Gemini Enterprise: Intelligenz als Code
Agentensysteme kombinieren logisches Denken mit Handeln und markieren den nächsten Schritt in der Entwicklung der KI. Der Wechsel von monolithischen...
Timothy van der Werf
Contact

