Blog

Produktionsreife Datenwissenschaft

Giovanni Lanzani

Aktualisiert Januar 28, 2026

7 Minuten

Es ist keine leichte Aufgabe, ein datengesteuertes Unternehmen zu werden. Aus dem Stegreif und in keiner bestimmten Reihenfolge sind dies die häufigsten Herausforderungen, denen sich ein Unternehmen stellen muss:

Anwerbung, Bindung und Ausbildung der richtigen Talente;
Daten sammeln und siloübergreifend zur Verfügung stellen;
Ihren Tech-Stack zu modernisieren oder die Komplexität der IT-Landschaft durch Hinzufügen neuer Technologien zu erhöhen;
Angst vor dem Unbekannten, d.h. viele Menschen haben Angst, die Kontrolle oder ihren Job an Daten und Data Science zu verlieren;
Mangel an Vision

Als ich über diese Liste nachdachte, hatte ich jedoch das Gefühl, dass die Probleme, mit denen einige Unternehmen konfrontiert sind, etwas tiefer liegen. Ich kenne in der Tat Unternehmen, die in allen fünf Punkten erhebliche Fortschritte gemacht haben, aber immer noch nicht die Früchte ernten, die sie erwartet hatten. Als ich mir diese Unternehmen genauer ansah, stellten sie alle fest, dass sie die von ihnen entwickelten Modelle nicht in die Produktion überführten. Die Gründe dafür waren unterschiedlich und reichten von der Zufriedenheit mit einer berichtsgestützten Entscheidungsfindung (entweder ein einmaliger Bericht oder eine regelmäßige Berichterstattung) bis hin zu dem einfachen Problem, alle Teile des Puzzles zusammenzusetzen.

Da ich ein neugieriger Typ bin, habe ich mich aufgemacht, um herauszufinden, was ihnen das Puzzle so schwer macht. Die Produktion eines Modells besteht aus einer Reihe von (beweglichen) Teilen:

Die Daten sollten automatisch für das Modell zur Verfügung stehen, d.h. es sollte kein menschliches Eingreifen in der ETL-Phase erforderlich sein;
Das Modell sollte außerdem automatisch ausgeführt werden, den DRY-Prinzipien folgen, (kampferprobt) sein und möglicherweise in seinen Quellen/Senken flexibel sein, indem es entweder als Bibliothek verwendet wird oder zugängliche APIs bereitstellt (REST ist heute eine der angesagtesten);
Die Aktualisierung und/oder das Neutrainieren des Modells sollte sich nicht auf das Front-End auswirken, das darauf zugreift, oder, im einfachsten Fall, nicht während der Geschäftszeiten.

Die Unternehmen, die damit kämpfen, datengesteuert zu werden, scheitern an einem oder mehreren der oben genannten Punkte. Was sie tun, ist eine Mischung aus Folgendem:

Sie kopieren die Daten manuell. Das macht es im Grunde unmöglich, ein Modell in Produktion zu bringen, denn wenn die Daten nicht automatisch fließen, wissen die Eigentümer der Daten (wo auch immer sie sein mögen) wahrscheinlich nicht einmal, dass ihre Daten in einem Modell verwendet werden. Wenn die Daten hingegen automatisch eingespeist werden, wissen sie, dass die Systeme von ihnen abhängig sind. Außerdem sollten Sie fast sofort eine Warnung erhalten, wenn die Einspeisung fehlschlägt (falls nicht: richten Sie sie ein);
Sie testen den Code nicht, so dass sich die Softwareingenieure im Grunde weigern, den Code anzufassen. Dieses Problem wird noch verschärft, wenn die Ingenieure den Code aus Leistungsgründen oder aus anderen Gründen neu schreiben müssen; wenn keine Tests verfügbar sind, wird die Änderung des Modells zur Herausforderung;
Im Zusammenhang mit dem vorhergehenden Punkt sind viele Datenwissenschaftler entweder ehemalige Datenanalysten, die ihren Job durch einen Wechsel der Berufsbezeichnung für sicherer hielten, oder sie kommen aus Disziplinen wie Physik, Mathematik oder Statistik, oft mit Forschungserfahrung. Da ich selbst vier Jahre lang in der Forschung in der Physik tätig war, kann ich bestätigen, dass wir, abgesehen von einigen Einhörnern, (früher) unlesbaren oder sehr komplizierten Code schreiben. Wenn Doktoranden in der Softwareentwicklung landen, lernen sie schnell die guten Praktiken kennen. Aber in der Datenwissenschaft kann die explorative Modellierung die Situation verschlimmern: Sie fangen an, in den Daten herumzustochern, bis es plötzlich Sinn macht, aber Sie lassen alle Schritte, die Sie unternommen haben, zurück, auch die unbenutzten. Wenn Sie dies mit einem Mangel an Dokumentation verbinden, können Sie leicht mit Tausenden von Codezeilen enden, die im Grunde als Vogelscheuche für Ihre Ingenieure dienen;
Manchmal kodieren Ihre Datenwissenschaftler in einer Sprache, die nicht gut mit der Außenwelt funktioniert. Wenn Sie dafür verantwortlich sind, sollten Sie dafür sorgen, dass dies aufhört, denn es gibt keine andere Lösung als eine vollständige Integration;
Viele Datenwissenschaftler gehen an das Problem mit einer Kaggle-ähnlichen Mentalität heran: das absolut beste Modell zu liefern, ohne Rücksicht auf die praktischen Auswirkungen. In Wirklichkeit ist es nicht das beste Modell, das wir implementieren, sondern dasjenige, das Qualität und Praktikabilität vereint. Nehmen Sie zum Beispiel den Netflix-Wettbewerb: Das Unternehmen stellte der Gruppe, die seine Empfehlungsmaschine verbessern würde, 1 Million Dollar zur Verfügung. Das Gewinnerteam fand eine Kombination von Algorithmen, die Netflix eins um 8,43% verbesserte. Netflix hat sie jedoch nie implementiert, da die Methode für 100 Millionen Bewertungen ausgelegt war, viel weniger als die 5 Milliarden, die Netflix hatte! Außerdem waren die Algorithmen nicht dafür ausgelegt, sich anzupassen, wenn Mitglieder weitere Bewertungen hinzufügten. Ich zitiere hier, aber denken Sie einen Moment darüber nach: Der Gewinner gab an, mehr als 2000 Stunden gearbeitet zu haben, um die endgültige Kombination von 107 Algorithmen zu finden, die ihm den Preis einbrachte. Sie haben Netflix den Quellcode zur Verfügung gestellt. Und dennoch haben sie nicht darüber nachgedacht , wie die Algorithmen verwendet werden sollen, d.h. täglich aktualisiert werden, wenn neue Benutzer zusätzliche Filme bewerten. 2000 Stunden Arbeit!

Wenn Sie diese Punkte beachtet haben, erkennen Sie wahrscheinlich ein Muster: Datenwissenschaftler sind in der Regel schlecht in Sachen Softwarequalität, d.h. Zuverlässigkeit, Benutzerfreundlichkeit, Effizienz, Portabilität und Wartungsfreundlichkeit. Da datengesteuerte Modelle durch Software implementiert werden, leiden sie genauso unter schlechter Softwarequalität wie Ihre typische Anwendung.

Lassen Sie mich das klarstellen: Das ist keine leichte Aufgabe! Um ein (großartiges) Modell zu erstellen, brauchen Sie Kreativität, eine wissenschaftliche Einstellung, Kenntnisse über verschiedene Modellierungstechniken usw. Datenwissenschaftler zu finden, die in der Lage sind, diese Modelle zu erstellen, ist eine der größten Herausforderungen für ein Unternehmen. Aber wenn Sie sich auf Kosten der Softwarequalität auf die Modellierung konzentrieren, wird etwas Großartiges und Bewundernswertes entstehen, das am Ende nicht genutzt wird.

Das ist der Grund, warum wir aktiv Datenwissenschaftler einstellen, die programmieren können, und zwar gut.

Ich kann mir vorstellen, dass Sie sich jetzt die nächste brennende Frage stellen, nämlich: Was ist, wenn die Datenwissenschaftler, die in meinem Unternehmen arbeiten, nicht gut darin sind? Was ist, wenn jemand das Unternehmen verlassen hat, eine großartige neue Methode eingeführt hat, aber niemand wirklich etwas mit dem anfangen kann, was sie geschrieben hat?

Hier biete ich Ihnen unsere Dienstleistungen, Schulungen und Beratung an, denn es ist ja nicht so, dass ich 12 Hundert Wörter umsonst schreibe! Wir können Ihre Datenwissenschaftler darin schulen, qualitativ hochwertigeren Code zu schreiben, und wir können den von ihnen geschriebenen Code überprüfen. Und wir sind sehr gut darin und haben Spaß dabei! Nehmen Sie Kontakt auf.

Ich habe diesen Beitrag nach einem ausgiebigen Brainstorming mit dem Team geschrieben. Ein großes Dankeschön geht insbesondere an Gabriele, die alles gelesen und mir mit ihrer Erfahrung bei einigen der größten niederländischen Unternehmen wertvolles Feedback gegeben hat.

Der Mangel an Visionen ist ein viel größeres Problem als 1-4, denn er kann selbst die größten und florierendsten Unternehmen zu Fall bringen (eine großartige Lektüre darüber ist Good to Great). Ich habe ihn dennoch mit aufgenommen, da er dazu führt, dass Budgets gekürzt oder nicht zur Verfügung gestellt werden oder dass das Management datengesteuerte Produkte nicht akzeptiert. Und eine fehlende Zustimmung des Managements ist noch schlimmer als ein fehlendes Budget. Einer unserer ersten Kunden installierte seinen ersten Hadoop-Cluster auf entlassenen Rechnern, baute eine Type-Ahead- und Empfehlungs-Engine für seinen Webshop und erlebte einen Gewinnsprung, gleich nachdem er es in Betrieb genommen hatte. Das Budget hätte nicht ausgereicht, wenn die Geschäftsleitung nicht zugestimmt hätte, das Modell in Produktion gehen zu lassen.
Es sei denn, es geht etwas kaputt, natürlich.
Was auch immer das für Sie bedeutet.
Dies ist wahrscheinlich einer der Beiträge mit der höchsten Dichte an Aufzählungspunkten, die ich je geschrieben habe. Ich bitte um Entschuldigung.
Ich erinnere mich noch gut daran, wie ein Professor meinte, dass die Verwendung von kkk als Variablenname keine sehr kluge Wahl sei. Daraufhin antwortete ich, dass ich k und kk für etwas anderes benutze.
Es ist nicht meine Absicht, ihre Arbeit zu verunglimpfen. Ich verwende oft die in Spark implementierten Methoden zur Matrixfaktorisierung, um meine Empfehlungsmaschinen zu trainieren. Ich stelle lediglich fest, dass sie sich an die Lösung eines Problems gemacht haben, ohne an die Produktion ihrer Arbeit zu denken.
Dies ist eine Teilmenge des ISO 9126-Standards zur Softwarequalität.