Kundengeschichten

Das digitale Marketingpotenzial von Daten erschließen

Aufbau einer Cloud-nativen Datenplattform für einen multinationalen Logistikdienstleister


Jeden Tag werden auf der Welt mehr als 2,5 Quintillionen Bytes an Daten erzeugt, die Innovationen vorantreiben. Unser Kunde, ein weltweit tätiges Logistikunternehmen, das von Anfang an Pionierarbeit geleistet hat, wollte die Kraft seiner eigenen Daten nutzen, um sein digitales Marketingpotenzial auszuschöpfen. Das Unternehmen sammelte bereits rund um die Uhr Verhaltens-, Einstellungs- und Transaktionsdaten, sowohl von seinen eigenen Anwendungen als auch von Drittanbieter-Tools wie Google Analytics und Adobe Analytics. Aber die Vielzahl der Quellen - intelligente Marketing-Automatisierungstools, Websites, Kundenumfragen, soziale Medien, Online-Communities und Kundenbindungsprogramme - ganz zu schweigen von den Altsystemen, machte die Maximierung des Datenpotenzials zu einer Herausforderung. Das multinationale Dienstleistungsunternehmen benötigte eine völlig neue Datenplattform.

Ermöglichen Sie datengesteuerte Geschäfte mit einer Vielzahl von Datenquellen

Warum

Eine Cloud-native Datenplattform auf Basis von Google Cloud Practice

Was

Einbettung von Prinzipien aus dem Software-Engineering und DevOps in datenwissenschaftliche Aktivitäten

Wie

Xebia beteiligte sich an dem Projekt in enger Zusammenarbeit mit dem zur Xebia-Gruppe gehörenden Unternehmen GoDataDriven (GDD) und bildete ein Team aus Plattformingenieuren, Dateningenieuren, einem Scrum Master und einem Product Owner. Da das Team aus Xebia-Beratern, GDD-Beratern und Mitarbeitern der Kundenorganisation bestand, war es möglich, sich eng an den Anforderungen des Kunden zu orientieren und einen nachhaltigen Wissenstransfer zu gewährleisten. Wir legten die Roadmap gemeinsam fest und änderten die Teamzusammensetzung und das Fachwissen, wenn dies aufgrund veränderter Prioritäten erforderlich war.

Das Team erhielt das Vertrauen und die Freiheit, verschiedene Arbeitsmethoden anzuwenden und entschied sich schließlich für Agile Scrum in Kombination mit DevOps-Prinzipien, da sie auf diesem Weg dazu lernten. 


Software-Engineering und DevOps-Prinzipien für Data Science und Data Platform Engineering

Innerhalb eines Monats baute das Team die erste Datenplattform (MVP) auf Amazon Web Service (AWS). Diese Plattform entsprach den ursprünglichen Geschäftsanforderungen und den DevOps-Prinzipien. So war es beispielsweise möglich, die Plattform von Anfang an innerhalb von Stunden vollständig zu löschen und neu bereitzustellen. Tatsächlich wurden DevOps-Prinzipien in den Data Science-Kontext eingebettet, wie z. B.:

  • Alles als Code (z. B. die Konfiguration von Komponenten, die Definition von (Sicherheits-)Richtlinien)
  • Vollständige Versionskontrolle in Git
  • Automatisierte Tests und Qualitätsprüfungen
  • Kaufen statt bauen (SaaS über PaaS/ Cloud Native über IaaS)
  • Multifunktionale autonome Teams
  • Agile Lieferung
  • Sie bauen es, Sie betreiben es

Das Team entwarf die Architektur und entwickelte eine neue Cloud-native Plattform auf AWS (Amazon Web Services), die AWS-native Dienste und Open-Source-Tools wie Hashicorp Terraform, Apache Airflow und Jenkins verwendete. Die neue Datenplattform, die innerhalb von Minuten vollständig reproduzierbar ist, unterstützte Continuous-Delivery-Konzepte und lieferte ihre (Daten-)Dienste auf Abruf über Self-Service

Kerndienste der Datenplattform:

  • ETL, um Datenquellen in die Plattform einzubinden: Vor-Ort-Datenbanken (Oracle, Teradata), Cloud-Datenquellen (PostgreSQL, Cassandra) und Datenanbieter von Drittanbietern (z. B. Google Analytics, Adobe Analytics & Salesforce)
  • Bietet einen Data Science Stack (Exploration & Entwicklung) für Datenwissenschaftler und einen Data Analytics Stack für Datenanalysten
  • (SQL-basierte) Datenexploration und Datenkatalog
  • Eine Laufzeitumgebung für das Hosting von analytischen, ML- und KI-Anwendungen (z.B. Spark, Tensorflow-Modelle)

Die neue Plattform ist mit mehreren Datenquellen integriert und kann schnell neue Quellen hinzufügen. Sie umfasst die Vorteile der Cloud wie Skalierbarkeit, Zuverlässigkeit und Verfügbarkeit in Echtzeit,  und Kosteneffizienz. Dashboards visualisieren die Leistung, und ein spezielles Alarmsystem benachrichtigt das Team sofort über Zwischenfälle.

Migration von AWS zu GCP

Im Jahr 2019 beschloss der Kunde, die Datenplattform von AWS zu Google Cloud Provider (GCP) zu verlagern. Die Migration erforderte ein Refactoring der Cloud-nativen Dienste (eine spezifischere Änderung des in Hashicorp Terraform erstellten Infrastrukturcodes). Außerdem mussten die Datensätze aus den AWS S3-Buckets in den GCP Cloud Storage verschoben werden. Die Migration bewies die Portabilität der Cloud-agnostischen, analytischen, ML- und KI-Anwendungen der Plattform. Mit den richtigen Bibliotheken und dem Zugriff auf die erforderlichen Datensätze konfiguriert, können sie in einer Laufzeitumgebung ausgeführt werden.

Die GCP Daten- und Analyseplattform

Die neue Plattform bringt Data-Science und Analytik mit den Bedürfnissen des Unternehmens in Einklang. Sie kann für die Suche und Identifizierung von Kundensegmenten verwendet werden, die mit Kampagnen angesprochen werden sollen, und kann auch Analysen durchführen, ohne in bestehende Daten in den Unternehmenssystemen einzugreifen. Die Datenplattform erleichtert die Datenanalyse auf Abruf. Diese On-Demand-Arbeitsweise hat die Standardberichterstattung ersetzt.

Nach der Analyse durch die Datenwissenschaftler räumt der Cluster automatisch auf, was Kosten spart. Jeder Datenwissenschaftler verfügt über einen persönlichen Data Science Stack, um Vorhersagemodelle zu entwickeln. Die Vorteile sind Isolierung, Rückverfolgbarkeit der Daten und Skalierbarkeit.

Außerdem hilft es Datenwissenschaftlern, ausgereifte Softwaretechnik und DevOps-Prinzipien anzuwenden. Sie können eine Versionskontrolle für ihren Code verwenden, Code-Qualitätsprüfungen einbetten und automatisierte Bereitstellungspipelines nutzen.

Contact

Let’s discuss how we can support your journey.