Artikel

4 Schritte auf dem Weg zum datengesteuerten Unternehmen

Aktualisiert September 25, 2025
14 Minuten

Erleben Sie, wie der Held unserer Geschichte - The Corporation - sich der Datenrevolution angeschlossen hat. 

 

Im Jahr 2015 hat das von Ban Ki-moon, dem Generalsekretär der Vereinten Nationen, eingesetzte High-Level Panel die Notwendigkeit einer so genannten "Datenrevolution" bei den Millenniumsentwicklungszielen (MDGs) zum Ausdruck gebracht.  

Diese Datenrevolution sollte es ermöglichen, evidenzbasierte Entscheidungen zu treffen. Im Jahr 2021 ist sie bereits in vielen Unternehmen angekommen. Derzeit können sogar mittlere und kleine Unternehmen von den Vorteilen der datengestützten Entscheidungsfindung (DDDM) profitieren. So sehr, dass der Satz "Daten sind das neue Öl" bereits zu einem geflügelten Wort geworden ist.    

Doch der Weg zu einem modernen, datenorientierten Unternehmen ist holprig. Viele Herausforderungen warten auf dem Weg. Oft wissen Unternehmen nicht einmal, wo sie die Reise beginnen sollen.   

Um Ihnen zu helfen, sich auf diesem Weg zurechtzufinden, werde ich Ihnen heute eine Geschichte erzählen. Sie wird anders sein als das, was Sie vielleicht von einem Blogbeitrag erwarten. Wenn Sie die Werke von Gene Kim kennen (und ich bin sicher, das tun Sie!), wird Sie der Aufbau dieser Geschichte nicht überraschen. Aber keine Sorge - ich habe keinen Roman geschrieben!  

Lassen Sie uns ohne Umschweife in das mythische Land der Excels und Big Data eintauchen.  

{{cta('3180bddc-cb61-4f19-88ac-6c7502db9a41')}}

4 Schritte auf dem Weg zum datengesteuerten Unternehmen  

Intro  

 

Der Hauptheld unserer Geschichte ist ein Unternehmen. Er ist im Einzelhandel tätig und wächst schnell.   

Seit einiger Zeit wird es immer schwieriger, das Unternehmen zu führen. Als das Unternehmen vor 20 Jahren gegründet wurde, begann es mit nur einem einzigen Geschäft. Inzwischen ist der Konzern jedoch an mehreren Standorten rund um den Globus vertreten, einschließlich Franchise-Geschäften und einigen kürzlich erworbenen Marken.   

Infolgedessen entstehen bei der täglichen Arbeit Terabytes an Daten. Die Kosten für die Speicherung dieser Daten steigen, aber der Nutzen schrumpft. Die Berichte sind mit alten Daten gefüllt und es fehlt ihnen an einem Gesamtüberblick. Der Konzern muss schnell etwas dagegen unternehmen - andernfalls werden diese Probleme nur weiter wachsen und wahrscheinlich bald außer Kontrolle geraten.  

Aus technologischer Sicht sind die Systeme des Konzerns alles andere als homogen. Nach vielen Jahren des Wachstums und der Übernahmen ist ihr IT-Ökosystem ein Konglomerat aus verschiedenen Teilen von über 10 Unternehmen. Dieses  stellt eine große Bedrohung für die Datenqualität und das Dateneigentum dar. Die Daten sind nicht zentralisiert - Gewährung Zugang zu neuen Mitarbeitern erfordert, dass sie zu 5 verschiedenen Authentifizierungssystemen hinzugefügt werden. Und mit einer multiregionale Unterstützung von Operationen, alle die Herausforderungen machen die Nutzung dieser Daten kompliziert.  

Bislang wurden die täglichen Verkaufsberichte von einem Team in Australien (mit dem Hauptsitz in Großbritannien) manuell erstellt. Da die Verkaufsergebnisse jedoch schnell wachsen, wird die Größe der Tabellenkalkulation gigantisch und die Ladezeiten steigen entsprechend. Und obwohl die Erstellung dieser Berichte viel Zeit in Anspruch nimmt, verursacht die manuelle Bearbeitung natürlich eine Menge Fehler. In der Vergangenheit haben einige Datenabweichungen sogar zu falschen Geschäftsentscheidungen geführt. Da das australische Team die Daten exportiert, ohne einen einzigen Überblick zu haben, werden wahrscheinlich noch mehr Fehler auftreten. Sie erhalten nicht einmal eine Bestätigung, ob der gesamte Export erfolgreich war.  

Was sollte der Konzern also in diesem schwierigen Fall tun, um seine Terabytes an Daten als Vorteil zu betrachten - und nicht als Belastung?  

 

Schritt 1 - Sammeln und Visualisieren von Daten 

 

 

Lassen Sie uns mit etwas ganz Einfachem beginnen. Es wäre von Vorteil, die Daten des Konzerns in einer verständlichen Form zu reorganisieren. Es wäre klug, sich ein vernünftiges, aber ehrgeiziges Ziel zu setzen. In unserem Fall könnte das Unternehmen zum Beispiel beschließen, täglich automatisierte Berichte mit einer Zusammenfassung aller Verkäufe des Vortages zu erhalten.   

Datengesteuertes Unternehmen

ZIEL: Tägliche Berichte über die Verkäufe des Vortages - erstellt in 4 Stunden oder weniger.  

Es gibt einige Herausforderungen, die das Unternehmen bewältigen muss. Das erste große Problem ist die Verteilung der Daten - sie sind über die ganze Welt verstreut. Es kommt nicht in Frage, alle Daten an einen einzigen Ort zu verlagern. Die Kosten und der Zeitaufwand für die Übertragung der Daten wären zu hoch. Daher wäre es von Vorteil, einen Ort zu schaffen, an dem die Daten pro Markt gespeichert und vorverarbeitet werden können, im Idealfall so nah wie möglich am Speicherort. Der Bericht pro Markt sollte dort erstellt werden, wo die Daten gespeichert sind. Dadurch würden Datenbewegungen (die Zeit und Geld kosten) vermieden.  

Um dies zu erreichen, führte der Konzern einen ETL-Prozess ein, der die Vorberechnung von Verkaufsdaten automatisierte. Daten aus verschiedenen Quellen werden nun untereinander abgeglichen. Außerdem wurden dem Prozess Datenqualitätsprüfungen hinzugefügt, wodurch die Anzahl der Datenfehler minimiert wurde.  

Jetzt werden die Ergebnisse in einem DWH (Data Warehouse) pro Region gespeichert; in Großbritannien werden die Ergebnisse zusammengeführt. Dank der Automatisierung, die für den Rest der Welt eingeführt wurde, können neue Berichte für eine einzelne Region erstellt werden. Ein BI-Tool wurde eingesetzt, um Berichte schnell und mit Unterstützung für Drilldowns zu erstellen. Das BI-Tool stellt die Datenergebnisse pro Markt dar und ermöglicht sowohl einen detaillierten als auch einen allgemeinen Überblick. Es gibt einen zusätzlichen Bericht für das Topmanagement, in dem die Ergebnisse aus den verschiedenen Regionen zusammengeführt werden. Dies war eine große Herausforderung für das Data Analytics Team - doch der zusätzliche Aufwand war es wert.  

Jetzt, nach nur 4 Stunden, stehen den Vorstandsmitgliedern automatisierte Berichte mit relevanten Daten zur Verfügung. Die Daten von Verkäufen und Kunden verlassen nicht mehr die Region, in der sie generiert wurden... und die Aufsichtsbehörden sind glücklich darüber!  

Die neue Datenvisualisierung hilft bei der Entscheidungsfindung; automatisierte Berichte können bei Bedarf exportiert werden. Das BI-Tool bietet eine Sicherheitsebene und eine Benutzerzugriffskontrolle, so dass keine unautorisierten Personen auf die Daten zugreifen können.  

Ein toller Anfang, nicht wahr?  

 

 

Schritt 2 - Streaming-Datenverarbeitung 

 

 

Die Gesellschaft kann feiert jetzt seinen ersten Datenerfolg. Mit der Erfassungs- und Visualisierungslösung kann das Unternehmen seine Strategie mit datengesteuerten Techniken lenken. Die ausgewählte Metriken sind Im Großen und Ganzen sichtbar, und die Analysetools Hilfe bei Geschäftsentscheidungen zu treffen (und zu begründen). 

Und da alles bestens funktioniert, ist es Zeit für den nächsten Schritt. 

Der Konzern hat nun die Idee, neue Datenquellen einzubeziehen. Das Ziel ist es, einen noch besseren Überblick über die globalen Operationen zu erhalten. Doch anders als bei den automatischen Berichten reicht diesmal eine 4-stündige Verzögerung nicht aus.  

Einer der angefordert Datenberichte sind Benachrichtigungen, dass ein bestimmtes Produkt in einem Geschäft fehlt. Schnelligkeit ist ein entscheidender Faktor: Je schneller die Reaktion, desto Waren sein können schneller geliefert und mehr Artikel können verkauft werden. Immerhin, um einen Laden wieder aufzufüllen, die Verlader braucht um einen neuen Transport zu planen, Waren zu liefern von anderes Geschäft und wenden Sie sich mit weiteren Anweisungen an einen Vertriebsmitarbeiter.  

Ziel: Schaffung einer Möglichkeit, das Personal zu benachrichtigen, wenn ein kritischer Alarm ausgelöst wird (und ihm die Möglichkeit zu geben, den Alarm als gelöst zu markieren).  

Zunächst einmal erzeugt jedes POS (Point of Sales) einen Strom von Ereignissen über Einkäufe in den Geschäften. Dank des First Step sind die Informationen über die Artikel im Lager des Geschäfts im Data Lake verfügbar. Basierend auf diesen Informationen kann ein Alarm ausgelöst werden, wenn ein Produkt in einem Geschäft nicht mehr verfügbar ist. Jede Information, die als Stream eintrifft, wird für zukünftige Analysezwecke ebenfalls im Data Lake abgelegt; jede einzelne Aktion wird nachverfolgt. Datengesteuerte Unternehmen messen ihre Prozesse und nutzen diese Erkenntnisse zur Verbesserung.  

Jetzt gibt es ein neues Dashboard für den Versand, das schnelle Benachrichtigungen über Warnungen enthält. Außerdem bieten das DWH und der Data Lake einen einzigen Überblick über alle Informationen, die zur Lösung der Alarme erforderlich sind.  

Tolle Neuigkeiten - der Konzern hat nun seine ersten Erfahrungen mit Streaming-Technologien gemacht! Die in einem System live erzeugten Daten werden nahezu in Echtzeit für Analysezwecke verwendet. Damit stehen Ihnen nun zahlreiche neue Möglichkeiten zur Verfügung. Wenn die Verarbeitung von Daten in Stapeln oder mit Verzögerung keine Option ist - Streaming ist die Antwort!  

 

 

Schritt 3 - Fortgeschrittene Analyse/Großdatenverarbeitung 

 

 

Der Konzern wird immer datengesteuerter. Die bisherigen Erfolge haben das Management davon überzeugt, dass Daten in ihrem Unternehmen wertvoll sind und häufig genutzt werden sollten. Und da die Mitarbeiter den direkten Nutzen bei ihrer täglichen Arbeit erleben, haben sie auch begonnen, sich mehr um die Datenerfassung zu kümmern.  

Seit dem Beginn der Datentransformation ist nun einige Zeit vergangen, und Informationen aus vielen neuen Datenquellen haben ihren Weg in den Data Lake gefunden. Das Wachstum des Unternehmens und seines Geschäfts geht mit einer umfangreichen Datensammlung einher.  

Nach Gesprächen mit den Managern wählten die Datenteams 30 der am meisten benötigten und zeitaufwändigsten Vorgänge bei der Erstellung von Berichten für das Unternehmen aus. Sie haben versucht, einige davon im Rahmen des aktuellen Systems zu implementieren. Die Zeit, die für diese teure Analyse benötigt wurde, machte sie überflüssig, bevor sie abgeschlossen war. Aus diesem Grund wurde angenommen, dass einige äußerst wertvolle Berichte nicht zu bekommen seien. 

dekoratives Bild

Das Ziel: Aktivieren Sie umfangreiche Berichte täglich oder auf Anfrage. Die Berichte sollten innerhalb von 4 Stunden nach der Anfrage schnell und pünktlich geliefert werden. Die Ergebnisse dieser Berichte sollten über ein Visualisierungstool (BI) verfügbar sein.  

Um diese Herausforderung zu meistern, hat das Unternehmen eine MPP-Plattform eingeführt. Hierfür wurde Apache Spark ausgewählt. Wenn ein Bericht erstellt wird, fährt ein riesiger Cluster hoch und beginnt mit der Verarbeitung einer PB-Skala von Daten. Der Cloud-Anbieter unterstützt die bedarfsgesteuerte Erstellung von Clustern und deren Abschaltung nach der Ausführung von Operationen. Kostenreduzierung und Automatisierung sind ein wichtiger Teil dieses Plans.  

Nachdem die Ergebnisse gespeichert wurden, wird der Cluster heruntergefahren. Es gibt einen zweiten, kleineren Cluster, der nur für kleinere On-Demand-Abfragen verwendet wird (die jetzt nur noch Minuten statt Stunden dauern). Die gespeicherten Berichte werden mit dem BI-Tool des Unternehmens visualisiert.  

Schließlich wurden alle umfangreichen Berichte auf Spark umgestellt. Berichte, die in der Vergangenheit nicht erstellt werden konnten, werden nun zeitnah geliefert. 

Außerdem wurde eine grafische Oberfläche namens "Jupyter Notebook" mit Unterstützung der Spark-Engine für BI und Data Engineering bereitgestellt, um neue Ideen rund um die im Data Lake gesammelten Daten zu entwickeln. Neue Ideen werden zum Leben erweckt, da SME (Subject Matter Experts) und Datenexperten jetzt schnell iterieren und Lösungen prototypisieren können.  

 

Schritt 4 - Anreicherung der Daten und Betrieb von ML-Modellen in der Produktion 

 

 

Der Konzern ist auf dem Weg dorthin! Es ist fast so weit, ein reifes, datengesteuertes Unternehmen zu werden.   

Erweiterte Analysen waren der erste Schritt, um Daten in großem Umfang zu verarbeiten. Der natürliche nächste Schritt ist das maschinelle Lernen - das Trainieren von Modellen und deren Betrieb in der Produktion wie jeder andere Teil der Software.   

Da Jupyter Notebooks als Teil der Big Data-Initiative eingesetzt wird, können angeheuerte Data Scientists nun die Daten aus dem Data Lake und die Rechenleistung der Big Data-Plattform nutzen und neue maschinelle Lernmodelle erstellen, um Geschäftsprobleme zu lösen. Data Scientists haben Experimente zur Vorhersage von Verkaufsmengen durchgeführt, um die Anzahl der leeren Regale zu minimieren. Dies steigert den Umsatz erheblich.  

Dennoch ergeben sich Herausforderungen - der Code im "Jupyter notebook" generiert keinen Wert. Solange er nicht in der Produktion eingesetzt und täglich verwendet wird, wurde kein Wert geschaffen. Das Data Science-Team kämpft mit der Verwaltung, dem Hosting und dem Betrieb seiner Modelle in der Produktionsumgebung.  

dekorativ

Das Ziel: Überführung des Jupyter Notebook-Codes von Experimenten in die Produktion - und Ankurbelung seiner Nutzung. 

Um das oben genannte Ziel zu erreichen, hat das Unternehmen einen neuen Ansatz für alle Data Science-Projekte eingeführt. Dank der MLOps-Tools und der Aufteilung der Projekte in die Experimentier- und Produktionsphase mit unterschiedlichen Tools ist das Unternehmen in der Lage, Geschäftsprobleme nicht nur in Notebooks zu lösen, sondern sie auch in der Produktion auszuführen. Der gesamte vom Data Science-Team bereitgestellte Code wurde in das Code-Repository verschoben. Die Notebooks wurden durch die Einführung eines Mechanismus für Experimente verbessert, der die Verfolgung aller Ausführungsergebnisse ermöglicht.  

Jetzt gehen die wertvollsten Modelle nicht mehr verloren, und Experimente sind reproduzierbar. Bei Bedarf können Data Scientists Zugang zu zusätzlichen Rechenressourcen wie GPUs für Deep Learning erhalten. Diese Ressourcen werden nur bei Bedarf für einen bestimmten Zeitraum hochgefahren. Durch verteiltes Training konnte die Zeit für das Trainieren von Modellen von mehreren Stunden auf Minuten reduziert und die Qualität verbessert werden, indem ein größerer Suchraum mit Hyperparametern feinabgestimmt wurde.  

Data Scientists können Experimente mithilfe einer MLOps-Pipeline mit einem Menschen in der Schleife in die Produktion überführen. Das bedeutet, dass jedes vom Data Science-Team erstellte Modell in die Produktion überführt werden kann, nachdem es einen Schwellenwert für Qualitäts- und Compliance-Prüfungen überschritten hat. Die zusätzliche menschliche Validierung des Modells vor der Überführung in die Produktion ist ein Mechanismus, der das Vertrauen innerhalb des Unternehmens stärkt.  

Die Modelle werden in einem Kubernetes-Cluster als Endpunkte gehostet, die von konsumierenden Anwendungen genutzt werden können - gesichert und überwacht. Eine weitere eingeführte Funktion sind A/B-Tests und Canary Release, die es Data Scientists ermöglichen, ihre Modelle vor dem Rollout durch die Benutzer in der Produktion zu testen. Stellen Sie sich vor, dass Sie Experimente mit einer kleinen Untergruppe von Benutzeranfragen mit neuen Modellen durchführen können. Auf der Grundlage dieses frühen Feedbacks entscheiden Sie dann, ob ein Modell von der Canary-Version zur Vollversion befördert werden sollte. A/B-Tests spielen eine große Rolle bei der Bereitstellung von ML-Modellen in der Produktion mit großer Sicherheit über das Ergebnis. Das gehostete Modell wird wie jede andere Anwendung behandelt und entsprechend überwacht. Darüber hinaus wurde eine Drift-Erkennung eingeführt, um das Modell neu zu trainieren, wenn seine Leistung nachlässt; außerdem wird eine Warnung mit entsprechenden Informationen an den Data Scientist gesendet. Ein Drift tritt auf, wenn ein ML-Modell anfängt, eine schlechte Leistung zu erbringen - die Gründe dafür sind zahlreich und erfordern eine weitere Analyse. Einer der häufigsten ist eine Verschlechterung der Leistung im Laufe der Zeit. Glücklicherweise kann dies in den meisten Fällen durch eine erneute Modellschulung behoben werden.  

Als Ergebnis dieser Maßnahmen können Experimente jetzt frei ausgeführt und verfolgt werden. Das Modell wurde vorbereitet und in der Produktion gehostet. Täglich werden neue Erkenntnisse gewonnen. MLOps wurde eingeführt, um die Erstellung neuer Modelle zu beschleunigen und sie zügig in der Produktion einzusetzen. Die Überwachung und Erkennung von Drifts zusammen mit der automatischen Umschulung stärkt das Vertrauen der Beteiligten in die ML-basierte Lösung. Von nun an können Data Scientists ihre bekannten Notebooks verwenden, um innerhalb von Minuten zu experimentieren, Modelle zu entwickeln, zu trainieren und in der Produktion einzusetzen. Immer mehr Geschäftsprobleme werden auf diese Weise gelöst werden!  

 

Outro 

 

Sie sollten wissen, dass nicht jeder Schritt immer eine Notwendigkeit ist. Je nach Ihrem Geschäfts- und Betriebsmodell können sich einer oder mehrere davon als überflüssig erweisen.   

Ein weiterer wichtiger Punkt ist, dass der Weg zur datengesteuerten Entscheidungsfindung wie eine Bergbesteigung ist. Auf dem Weg dorthin wird jeder Schritt schwieriger. Diese größere Schwierigkeit wird jedoch mit einer größeren Belohnung belohnt. Jeder dieser Schritte führt zu einer höheren Kapitalrendite und senkt langfristig die Betriebskosten immer mehr.  

 

Das Unternehmen ist sehr reif geworden - jetzt ist es Zeit für Ihr Unternehmen! 

 

Endlich sind die Bemühungen unseres Unternehmens zu einem Ende gekommen. Aus einer veralteten Organisation mit manuellen (fehlerhaften) Berichten ist ein respektables Unternehmen geworden, das es versteht, Daten und moderne Technologien zu nutzen, um die besten Entscheidungen zu treffen, den Umsatz zu steigern und neue Chancen zu erkennen.  

Wenn Ihr Unternehmen eher dem Konzern am Anfang seiner Datenreise gleicht, sollten Sie ebenfalls in Erwägung ziehen, sich auf den Weg zur datengesteuerten Entscheidungsfindung zu machen. Sicher, dieser Weg ist nicht einfach. Er sollte Schritt für Schritt beschritten werden, und jeder Schritt muss mit einer Validierung und lieferbaren Artefakten begleitet werden. Aber wie unsere Corporation beweist - es lohnt sich.    

Die Auswahl der richtigen Werkzeuge ist entscheidend für den Erfolg. Mit den richtigen Werkzeugen lassen sich Probleme lösen; falsche Werkzeuge verursachen hohe Kosten, ohne den erwarteten Nutzen zu bringen.   

Auch die Zusammenarbeit mit einem Technologiepartner kann diesen Weg erheblich erleichtern. Wenn Sie mehr darüber erfahren möchten, kontaktieren Sie uns, um einen Termin zu vereinbaren!

Contact

Let’s discuss how we can support your journey.