Mit dem neuesten Hype Geld zu investieren ist normal. Es zu verschwenden, wenn der Hype vorbei ist, ist gefährlich.
Die meisten Unternehmen um mich herum verschwenden Geld mit Data Science.
Sie sehen überwältigende Beweise dafür, dass Data Science1 Sektoren verändert und neue Geschäftsmöglichkeiten schafft. Wenn man sich die niederländische Landschaft ansieht, gibt es keinen Zweifel daran, dass die Teams um uns herum Data Science nutzen, um Werte zu schaffen. Ich nenne hier nur Bol.com, Uber (Eats), Booking.com, ING, NPO, Marktplaats, Quby, usw.
Aber für jeden von ihnen gibt es eine Handvoll Unternehmen, die nicht erfolgreich sind und tatsächlich ihre Ressourcen mit Data Science verschwenden.
Es fängt damit an, dass man nicht versteht, wie man mit Hilfe von Data Science einen Mehrwert für das Unternehmen schaffen kann, und vor allem, welche Möglichkeiten es gibt, dies zu ermöglichen.
Lassen Sie uns ein Beispiel betrachten. Ich bin sicher, Sie können es an Ihr Unternehmen anpassen.
Ein Krankenhaus möchte vorhersagen, ob die Patienten, die in die Notaufnahme kommen, aufgrund der Informationen, die sie bei der Aufnahme erhalten, ins Krankenhaus eingeliefert werden oder nicht.
Die Vorhersage ermöglicht es dem Krankenhaus, die Ressourcen der verschiedenen Abteilungen besser zu planen. Dies wird wiederum zu Kosteneinsparungen führen.
Einige Daten werden gesammelt, an Datenwissenschaftler weitergegeben und - nach zwei Wochen - findet die erste Demo statt. Die Ergebnisse sind vielversprechend, aber sie brauchen noch etwas mehr Zeit.
Gut. Immerhin waren die Daten chaotisch: Sie mussten sie bereinigen und ein paar Mal zur Quelle zurückgehen.
Zwei Wochen vergehen und die neuen Ergebnisse sind noch schöner. Mit 70%iger Genauigkeit können sie vorhersagen, ob ein Patient nach seinem Besuch in der Notaufnahme nach Hause gehen kann.
Das ist viel besser als der Zufall (50%)! Ein vollwertiger Pilot startet.
Sie stehen vor einer Reihe von Herausforderungen, um vom Modell zum Datenprodukt zu gelangen:
- Wie Sie die Quelldaten an das Modell senden, ist unklar;
- Wo das Modell laufen soll;
- Der Krankenhausbetrieb muss sich ändern, denn die Aufnahme erfolgt mit Stift und Papier;
- Sie wissen, dass sie keinen Mehrwert bieten können, wenn sie nicht wissen, in welche Abteilung der Patient kommt;
- Um die Abteilung vorherzusagen, braucht das Modell die Diagnose. Aber sobald die Diagnose in den Computer eingegeben wurde, hat der Patient sein Ziel erreicht: Das Modell ist nutzlos!
Wenn Sie meinen, dass dies ungewöhnlich ist, dann kann ich Ihnen nicht sagen, wie viele Proofs of Concept (PoCs) ich gesehen habe, die (teilweise) die gleichen Schwächen aufweisen:
- Kein klarer Business Case;
- Keine Datenplattform, auf der Datenpipelines erstellt werden können;
- Kein Bewusstsein für die Auswirkungen auf den Betrieb (das Beispiel mit Stift und Papier im Krankenhaus);
- Keine Erkenntnis, dass ein Modell nur dann nützlich ist, wenn die Vorhersagen zeitnah sind;
- Kein klarer Übergabemechanismus, sobald die erste Iteration eines Modells abgeschlossen ist (d.h. wo wird es ausgeführt und wer ist dafür verantwortlich).
Die Liste geht weiter, aber Sie verstehen das Wesentliche.
Was brauchen Sie, damit das alles klappt? Ich kann mir zumindest diese Rollen vorstellen:
- Data Engineer (Pipelines und Plattform) und Lead Data Engineer;
- Data Scientist und Lead Data Scientist;
- Data Science-versierter Product Owner (definieren und verfeinern Sie den Business Case);
- Systemadministratoren zur Überwachung von Modellen in der Produktion usw;
- Softwareentwickler, um das Datenprodukt in andere Geschäftsanwendungen, Websites und Apps einzubetten oder zu integrieren.
- Datenbankadministratoren aus den anderen Abteilungen, um die Datenbanken zu öffnen, usw.
Auf der "operativen" Seite benötigen Sie
- Eine Datenplattform, über die Pipelines laufen und auf der Daten landen;
- Eine datengesteuerte Mentalität, bei der Daten und Wissen ungehindert zwischen organisatorischen Silos fließen können;
- Ein datenwissenschaftlicher Arbeitsablauf: Wie verbessert man das Modell, sobald die erste Iteration läuft, wie übergibt man das Modell, wie sollte das Unternehmen Input geben, wie schließt man den Feedback-Zyklus usw.
Wenn Sie nur die Rollen zählen, die erforderlich sind, um ein Team zusammenzustellen, das datengesteuerte Modelle/Produkte liefern kann, komme ich auf Folgendes:
- 2 Dateningenieure, 1 Leiter
- 1 Datenwissenschaftler, 1 Leiter
- 1 Produktverantwortlicher
- 2 Systemadministratoren (das ist wenig für die Redundanz, aber immerhin).
In den Niederlanden können wir davon ausgehen, dass die Konkurrenzsituation die Kosten für jede Rolle auf etwa 100.000 EUR/Jahr (einschließlich Sozialkosten) treibt. Wahrscheinlich bin ich hier ein wenig konservativ.
Rechnet man die Kosten für die Plattform hinzu (runden wir sie auf 100.000 EUR/Jahr auf), ergibt sich eine Summe von 1 Mio. EUR/Jahr.
Was können Sie mit diesem Geld kaufen? Nehmen wir an, das Team hat genug Durchsatz, um 5 Modelle/Jahr zu liefern (1 Modell alle 2 Monate, einschließlich einiger Urlaube hier und da, Schulungen, Konferenzen).
Diese 5 Modelle werden nicht gewartet: Sie fügen keine neuen Funktionen hinzu, Sie pflegen keine Datenpipelines, usw. Wenn Sie all das auf robuste Art und Weise tun, wird der Durchsatz wahrscheinlich auf vielleicht 3 Modelle pro Jahr sinken - irgendwann werden Sie jedoch mehr Leute brauchen, um ältere Modelle zu pflegen, oder sie werden nicht mehr funktionieren.
Vergessen Sie nicht die Software-Ingenieure, DBAs und Fachexperten aus den anderen Abteilungen, die für all diese Daten- und Wissensflüsse einbezogen werden müssen. Ungefähr 500.000 EUR/Jahr?
Schauen wir uns die Rechnung noch einmal an: 3 Mio. EUR für 6 Data Science-Fälle in der Produktion (3/Jahr für 2 Jahre). Die ersten Fälle werden wahrscheinlich nach ~6/12 Monaten in Produktion gehen, da die Plattform, die Datenpipelines, die Entwicklungs- und Produktionsumgebungen und so weiter erst einmal vorhanden sein müssen.
Die meisten niederländischen Unternehmen investieren nicht einfach 3 Mio. EUR für 6 Data Science-Fälle. Und warum?
- Es fehlt eine ernsthafte Beteiligung der Führungskräfte: eine Beteiligung, die mindestens 3 Mio. EUR umfasst;
- Es gibt keine Datenstrategie: Die Leute fangen an, Dinge zu tun, ohne ein klares Bild davon zu haben, was das alles mit sich bringt. Ohne Strategie ist es schwer, die richtige Menge an Geld in etwas zu investieren, das auf dem Papier das Potenzial hat, die Branche zu verändern und dem Unternehmen einen klaren Wettbewerbsvorteil zu verschaffen. In der Praxis ist dies jedoch alles nur Potenzial und keine sichere Investition.
Was passiert also? Die Leute beginnen Projekte, die bei ihrer Ankunft tot sind. Sie verschwenden immer noch eine Menge Geld, aber unter dem Strich entsteht kein Mehrwert.
Das ist der ganze Grund, warum große Unternehmen Start-ups kaufen. Indem sie nur 1-2 Rollen haben, die sich einem Kerndatenprodukt widmen, indem sie große Mengen an technischen Schulden aufnehmen und mehr, sind Start-ups in der Lage, den Business Case schnell zu beweisen. Sobald dies geschehen ist, gibt es zwei Möglichkeiten:
- Das Start-up benötigt einen noch größeren Geldbetrag, um die technischen Schulden zu tilgen und zu skalieren;
- Sie werden gekauft und der Käufer wird das Geld ausgeben.
Wie bringen Sie das alles in Ordnung?
Erstens: Erstellen Sie eine Datenstrategie. Welche Bereiche würden am meisten von der Datenwissenschaft profitieren, wie stellt man ein, wie wird man datengesteuert, usw. Und vor allem: Wie viel Geld wird benötigt, um das Schwungrad in Gang zu setzen? 2
Zweitens: Sammeln Sie die Business Cases und priorisieren Sie sie nach ihrem Wert. Sind sie machbar bis zu dem Moment, an dem sie Geld einbringen?
Drittens: Holen Sie sich externe Hilfe, um die 1-2 besten Anwendungsfälle zu validieren. Gute Berater können schnell aufzeigen, ob etwas machbar ist, wie hoch die zu erwartende Genauigkeit, Laufzeit usw. ist.
Viertens: Bauen Sie die Plattform auf, formalisieren Sie die Einstellung usw. Dies wird vielleicht 6-8 Monate dauern. Überspringen Sie nicht den Lead DE und DS - Sie sollten mit ihnen beginnen! 3
Fünftens: Bringen Sie die Fälle in die Produktion. Dies wird beim ersten Mal 3-4 Monate dauern, da eine Menge geplant, angepasst usw. werden muss.
Sechstens: Bewerten Sie die Business Cases, verfeinern Sie sie und stellen Sie sicher, dass Sie Ihre "Lektionen gelernt" haben.
Sieben: Neue Geschäftsfälle einbinden, spülen und wiederholen.
Acht: Gewinn.
Ist das wirklich eine Lösung?
Es ist leicht, einen Blogbeitrag mit acht einfachen Schritten zu schreiben, für den man mehr als ein Jahr und ein paar Millionen Euro braucht.
Es ist viel schwieriger, alle 8 Schritte umzusetzen.
Deshalb ist die Zustimmung der Geschäftsleitung genauso wichtig wie die Datenstrategie. Ohne sie ist es unmöglich, all die kleinen und großen Brände auf dem Weg zu überstehen, von denen es vor allem am Anfang viele geben wird.
Werden alle diese Rollen benötigt?
Einige Data Science-Projekte sind falsch etikettiert. Sie sind glorifizierte Datenanalyseprojekte, bei denen ein bisschen SQL, ein bisschen Visualisierung und - vielleicht - ein bisschen Python für ein Dashboard, einen Bericht oder eine Excel-Datei ausreichen.
Wenn es sich bei dem Projekt eher um Datenanalyse als um Datenwissenschaft handelt, dann machen Sie sich keine Sorgen: Das meiste von dem, was ich oben geschrieben habe, trifft nicht zu.
Ich glaube trotzdem, dass Sie Geld verschwenden: Sie haben wahrscheinlich Data Scientists eingestellt - die teurer sind als Datenanalysten, wenn wir den verschiedenen Gerüchten und Umfragen Glauben schenken - und haben eine halbfunktionale Datenplattform - die komplexer ist als Ihr gewöhnliches Data Warehouse -, die Sie nicht wirklich brauchen: Sie haben schon vor Just Fine©️ Datenanalysen durchgeführt.
Ist GoDataDriven der richtige Partner, um mit den 8 Schritten zu beginnen?
Ja (das war einfach).
Wenn Sie mehr über mich erfahren möchten, folgen Sie mir auf Twitter: Ich bin dort gglanzani!
- Für die Zwecke dieses Beitrags werde ich Data Science als Synonym für maschinelles Lernen verwenden, obwohl dies sachlich nicht korrekt ist.
- Beginnen Sie sofort mit der Einstellung von Mitarbeitern. In den Niederlanden nimmt dies viel Zeit in Anspruch. Niemand, der neu auf dem Gebiet ist, ist sich dessen bewusst, und die Personalabteilungen großer Unternehmen sind dieser Aufgabe oft nicht gewachsen.
- Sind Leads zu teuer? Ja, das sind sie. Allerdings weniger als externe Berater und hoffentlich genauso kompetent wie diese. Stellen Sie außerdem unbedingt zuerst Ingenieure ein. Sie haben ein Modell, das von den externen Beratern geschrieben wurde und das in die Produktion gehen kann; Ingenieure allein können das tun, vorausgesetzt, die Berater haben gute Arbeit geleistet.
Verfasst von
Giovanni Lanzani
Unsere Ideen
Weitere Blogs
Contact




