Artikel

Eine Reise in Richtung Echtzeit-Insight-Generierung und Entscheidungsautomatisierung

Amar Patel

Aktualisiert Oktober 13, 2025
8 Minuten

In den letzten 12 Monaten habe ich mit zahlreichen Leitern von Analyseabteilungen in großen und kleinen Unternehmen aus zahlreichen Branchen gesprochen. Viele dieser Leiter sind für die Erstellung von Berichten, analytischen Erkenntnissen und Managementinformationen über ihre Produkte und Dienstleistungen auf nationaler und internationaler Ebene verantwortlich.

Trotz ihrer Unterschiede gibt es gemeinsame Probleme und Themen, die immer wieder auftauchen. Dazu gehört auch die Bestimmung der richtigen Tools und Prozesse, die erforderlich sind, um in einem lauten und zunehmend gestörten Sektor wettbewerbsfähig zu bleiben. Ein Einzelhandelsunternehmen, mit dem ich sprach, konsolidierte sein Programm zur organisatorischen Umgestaltung und nutzte die besten digitalen Partnerschaften für den Online-Handel und die automatisierte Logistik für die Hauszustellung.

Der Wettbewerb ist jedoch intensiv, und diese Intensität wird wahrscheinlich noch um mindestens eine Größenordnung zunehmen, wenn die Marktdurchdringung z.B. von Amazon (Go, Fresh und Whole Foods) steigt. April 2017 - Amazon Strategy Teardown: Aufbau neuer Geschäftsfelder in den Bereichen KI, Logistik der nächsten Generation und Cloud-Anwendungen für Unternehmen

Der Einzelhandel ist nicht die einzige Branche, die mit diesem Grad an Wettbewerb, Fragmentierung und Umwälzungen konfrontiert ist; wir sehen dies auch im Finanzwesen, in der verarbeitenden Industrie, im Transportwesen, im Bauwesen und in anderen Bereichen.

Derzeit können viele dieser Unternehmen mit ihren aktuellen Technologien Einblicke und Berichte auf wöchentlicher, monatlicher und jährlicher Basis erstellen. Sie arbeiten weitgehend in einer Welt der Batch-Verarbeitung mit traditionellen ETL-Funktionen (Extrahieren, Transformieren, Laden) und haben keine offensichtlichen Pläne zur Einführung von Erkenntnissen in Echtzeit oder mit kürzerem Zeithorizont.

Für uns wird das Gespräch immer dann interessant, wenn wir anfangen zu skizzieren, wie eine Echtzeit-Welt für sie aussehen könnte.

Einfach ausgedrückt, es ist etwas, das alle Unternehmen, nicht nur im Einzelhandel, nicht ignorieren können. Lassen wir den Amazon-Effekt einmal beiseite, wenn auch nur für einen kurzen Moment; wenn man die schiere Anzahl der Erwähnungen von "Amazon" in ihren  Gewinnmitteilung allein, jeder sollten Amazon zumindest in ihrem peripheren Blickfeld haben.

Für uns bei Xebia ist klar, dass viele unserer Kunden Echtzeitdaten und -erkenntnisse anstreben. Wir helfen ihnen zum Beispiel dabei, Belohnungs- und Benachrichtigungsprogramme für B2C-Kunden im Einzelhandel, im Finanzwesen und im Glücksspielbereich umzusetzen.

Verbraucher und zunehmend auch Unternehmen verlangen ein Erlebnis, das ihnen genau das bietet, was sie brauchen, wann sie es brauchen, und nicht mehr und nicht weniger. Unserer Meinung nach sind sie eher bereit, mit Marken und Erlebnissen zu handeln, die diese Art von Erfahrung bieten.

Wenn Sie die Datenverarbeitung und die Gewinnung von Erkenntnissen nicht in Echtzeit nutzen, beeinträchtigt dies Ihre Agilität und Reaktionsfähigkeit und damit die Wahrscheinlichkeit einer überdurchschnittlichen Leistung - siehe das folgende Zitat von McKinsey. 4 Mär 2017 - Wert aus Ihren Kundendaten schöpfen

Es gibt viele Unternehmen, die ihre Analysen mit Hilfe von Tabellenkalkulationen fortsetzen, die von Back-End-SQL-Datenbanken gespeist werden, die ihrerseits durch ETL-Prozesse (automatisiert und manuell) aus verschiedenen Back-End-Systemen gespeist wurden.

In Anbetracht der oben genannten Kennzahlen aus der McKinsey-Umfrage lassen viele Unternehmen, die derzeit Daten nutzen, um effektive Entscheidungen zu treffen, Geld auf dem Tisch liegen. Letztlich geht es um den operativen Gewinn, der auf dem Tisch liegt, weil einfach keine Echtzeit-Datenstrategie vorhanden ist, ganz zu schweigen von der Verringerung der Wahrscheinlichkeit anderer Gewinne, die nicht auf Pareto beruhen, durch maschinelles Lernen, Echtzeit-Targeting, Betrugserkennung und vieles mehr.

Wie beginnen Sie also Ihre Reise zu all diesen guten Dingen? Nun, hier sind einige Hinweise, von denen die meisten dem gesunden Menschenverstand entsprechen sollten:

  • Wechseln Sie von Batch-Systemen und -Prozessen zu Mikro-Batch- und Echtzeit-Systemen und -Prozessen, um die Zeit bis zur Erkenntnis zu verkürzen bzw. die Erkenntnis nahezu in Echtzeit zu erhalten.
  • Beseitigen Sie Verarbeitungsengpässe und führen Sie mehr Automatisierungen ein, von denen viele wahrscheinlich im Ökosystem der Tabellenkalkulation angesiedelt sind, so dass die Teams mehr Zeit für Experimente mit Daten haben.
  • Formalisierung eines Datenlebenszyklus auf nationaler, Konzern- und Abteilungsebene, um die Standardisierung von Datenoperationen und -verwaltung zu unterstützen
  • Starten Sie eine Reihe von POCs in den verschiedenen Phasen des Datenlebenszyklus, um die Rentabilität der Investitionen zu ermitteln und zu bestätigen.
  • Nutzen Sie elastische Rechen- und Speicherkapazitäten in der Cloud, um Infrastrukturkosten und Zeit zu sparen - es macht wirklich keinen Sinn, mit AWS, Microsoft oder Google konkurrieren zu wollen.

Wenn Sie über den obigen Punkt nachdenken, hilft es auch, sich Daten als ein Produkt vorzustellen, das erstellt wird, einen Lebenszyklus hat und einer Vielzahl von Arbeitslasten und Transformationen unterworfen ist; ähnlich wie jedes andere interne Produkt oder jede andere Dienstleistung in Ihrem Unternehmen.

Viele Unternehmen verfügen immer noch über eine eigene Infrastruktur oder Co-Location. Durch die Verlagerung von ETL, Batch-Verarbeitung und Datenspeicherung in die Cloud erhalten sie eine flexible Rechen- und Speicherkapazität, die alles übertrifft, was sie selbst erreichen könnten. Hier sehen Sie ein Beispiel dafür, wie eine Standardarchitektur auf der Google Cloud Platform (GCP) aussehen könnte:

ein Beispiel dafür, wie eine Standardarchitektur auf der Google Cloud Platform aussehen könnte

Dies wiederum ermöglicht ihnen den Übergang von großen Batch-Workloads zu Micro-Batch-Workloads, wenn ihre Backend-Infrastruktur im Laufe der Zeit modernisiert wird. Außerdem haben sie die Möglichkeit, die Datenverarbeitung und -umwandlung direkt nach dem Einlesen durchzuführen (Cloud Dataflow ist ein vollständig verwalteter Stream- und Batch-Datenverarbeitungsdienst, der auf Apache Beam basiert).

Im Laufe der Zeit, wenn die Backend-Systeme es zulassen, könnte der Einzelhändler die Vorteile der Echtzeitaufnahme (über Cloud Pub/Sub) nutzen und weiterhin die Verarbeitungs- und Speicherkapazität im selben Data Warehouse wie die ETL-Daten verwenden.

Das Tolle am GCP-Stack ist, dass es sich um einen hochgradig modularen, vollständig verwalteten Service handelt, so dass jedes Unternehmen zunächst ETL, Datenverarbeitung und Visualisierung in die Cloud migrieren könnte, um Infrastrukturkosten zu sparen. Im Laufe der Zeit und in dem Maße, wie die Fähigkeiten des Unternehmens (technologisch und personell) wachsen, könnte es das Echtzeit-Daten-Streaming in denselben Stack einbringen. Hier sind einige wichtige Funktionen und Produkte zu nennen:

Wolke Pub/Sub

Pub/Sub kann als nachrichtenorientierte Middleware in der Cloud betrachtet werden, die eine Reihe von Anwendungsfällen mit hohem Nutzwert bietet, insbesondere in unserem Fall asynchrone Workflows und Daten-Streaming von verschiedenen Prozessen, Geräten oder Systemen. Sie ermöglicht die Aufnahme von Informationen in Echtzeit zur Verarbeitung und Analyse.

Google Cloud Storage (GCS) und Speicherübertragungsdienst

GCS ist ein einheitlicher Objektspeicher und dient lediglich als Zwischenstation für Daten, die von verschiedenen Backend-Systemen vor der Verarbeitung geladen werden. Dieser Staging Point bietet die Möglichkeit, Daten zu standardisieren, bevor nachgelagerte Dienste mit der Verarbeitung beginnen.

Der Übermittlungsdienst (in der Architektur nicht dargestellt) bietet einen Mechanismus, um Daten in den Cloud-Speicher zu übertragen, z. B. für einmalige oder wiederkehrende Übermittlungsvorgänge sowie für die regelmäßige Synchronisierung zwischen Datenquellen und Datensenken. Damit entfällt die Notwendigkeit, das Laden von Stapeln usw. manuell zu verwalten, und der Automatisierungsgrad zwischen interner und Cloud-basierter Verarbeitung wird erhöht.

Google Stackdriver

Stackdriver (in der Architektur nicht dargestellt) ist zwar für den Betrieb der Datenverarbeitung und -analyse nicht entscheidend, lässt aber alle Beteiligten nachts besser schlafen, da es eine sehr leistungsstarke Überwachung, Protokollierung und Diagnose bietet, die sicherstellt, dass alle Datenverarbeitungs-Workloads und alle nachgeschalteten Anwendungen gesund sind und optimal funktionieren. Da die Überwachung auch in Ihre eigene Infrastruktur eingebettet werden kann, bietet sie einen ganzheitlichen Überblick über die Datenlieferketten in Ihrem Unternehmen.

Cloud-Datenfluss

Cloud Dataflow ist ein Service (basierend auf Apache Beam) zur Umwandlung und Anreicherung von Daten im Stream- (Echtzeit) und Batch-Modus (historisch) mit gleicher Zuverlässigkeit und Aussagekraft. Er bietet ein einheitliches Programmiermodell und einen verwalteten Service für die Entwicklung und Ausführung einer Vielzahl von Datenverarbeitungsmustern, einschließlich ETL. Cloud Dataflow erschließt transformative Anwendungsfälle in verschiedenen Branchen, darunter:

  • Clickstream-, Point-of-Sale- und Segmentierungsanalysen im Einzelhandel
  • Aufdeckung von Betrug bei Finanzdienstleistungen
  • Personalisierte Benutzererfahrung bei Spielen
  • IoT-Analytik in Fertigung, Gesundheitswesen und Logistik

Google hat das Cloud Dataflow-Programmiermodell und die SDKs in die Apache Software Foundation eingebracht und damit das Apache Beam-Projekt ins Leben gerufen, das sich schnell zu einem De-facto-Tool im Bereich der Datenverarbeitung entwickelt. Jan 2018 - Apache Beam senkt die Einstiegshürden für Technologien zur Verarbeitung großer Datenmengen

BigQuery

Google BigQuery ist ein Cloud-basierter Big-Data-Analyse-Webdienst für die Verarbeitung sehr großer, schreibgeschützter Datensätze. Es handelt sich praktisch um ein vollständig verwaltetes Data Warehouse in der Cloud. BigQuery wurde für die Analyse von Daten in der Größenordnung von Milliarden von Zeilen entwickelt und verwendet eine SQL-ähnliche Syntax. Es läuft auf der Google Cloud Storage-Infrastruktur und kann über eine REST-orientierte API angesprochen werden.

Daten aus BigQuery können von verschiedenen Anwendungen für regelmäßige oder Ad-hoc-Workloads eingelesen werden, z.B. für das End-of-Day-Reporting mit Tools wie Dataproc (dem vollständig verwalteten Hadoop- oder Spark-Service von GCP), für das Reporting in DataStudio (oder anderen BI-/Visualisierungstools) oder für aufkommende Data-Science-Initiativen mit DataLab (das den Open-Source-Kern von Jupyter nutzt).

Neben einem vollständig verwalteten Service bietet Googles Ansatz für die Infrastruktur eine Reihe von Vorteilen. Erstens verfügt fast jeder GCP-Service über einen Open-Source-Kern, so dass jeder Kunde die Freiheit hat, jederzeit von GCP auf eine andere Infrastruktur seiner Wahl zu migrieren (auch wenn er wahrscheinlich eine kleine Armee von DevOps und CREs einstellen müsste, um das zu verwalten). Zweitens,  GCP bietet eine kostenlose Stufe. BigQuery beispielsweise hat zwei kostenlose Stufen: eine für die Speicherung (10 GB) und eine für die Analyse (1 TB/Monat), wodurch die Nutzung für Prototypen oder Tests gefördert wird.

Schlussfolgerungen

Wir sind begeistert von der Vielfalt der Möglichkeiten, die sich vielen unserer Kunden und Interessenten im Bereich der Dateninnovation bieten. Einige davon könnten für sie in den nächsten 5-10 Jahren zu einem bahnbrechenden Wachstum führen. Nicht nur in Bezug auf die Datenverarbeitung und -visualisierung, sondern auch in Bezug auf die Schaffung von Echtzeit-Datenlieferketten im Herzen ihrer Unternehmen. Das ist letztlich unsere Mission.

Wenn Sie der Meinung sind, dass Sie in einem dieser Bereiche Hilfe benötigen, würden wir gerne die für Ihr Unternehmen relevanten Optionen prüfen.

 

Contact

Let’s discuss how we can support your journey.