Artikel
Applied Data Science - Der neue Standard im datengesteuerten Geschäft

Die Einführung von Vorhersagemodellen in die Produktion erfordert einen rationalisierten Arbeitsablauf und hochqualifizierte Datenwissenschaftler und Ingenieure. In den letzten Jahren haben sich Unternehmen darauf konzentriert, überzeugende Proof of Concepts und erste Anwendungsfälle zu entwickeln. Jetzt müssen sie datengesteuerte Konzepte erfolgreich in ihren täglichen Betrieb einführen. In diesem Jahr werden datengesteuerte Unternehmen die Produktion von Datenprojekten zur Priorität und zum Schwerpunkt machen. Die Produktion wird die Belastung in anderen Teilen des Unternehmens erhöhen, so dass die Data Science-Teams auf bewährte Methoden wie Microservices und APIs zurückgreifen werden, um ihren Prozess zu rationalisieren. Data Governance wird zu einem Standardbestandteil eines jeden Datenprojekts werden. Die Big Data-Technologie ist ausgereift und größtenteils unternehmenstauglich, was den Druck auf und die Nachfrage nach Data Scientists erhöht. Große Technologieunternehmen wie Google, LinkedIn und Facebook werden ihre Produktinnovationen weiterhin in einem frühen Stadium als Open Source zur Verfügung stellen. Im Jahr 2017 wird sich die Kluft zwischen Lehrbuch-Datenwissenschaftlern und erfahrenen Praktikern weiter vergrößern. Unternehmen, die Mitarbeiter halten, fördern und anziehen, die Data Science in der Produktion anwenden können, werden einen erheblichen Wettbewerbsvorteil erlangen.
Vom PoC zur Produktion
Wenn wir über den Big-Data- und Data-Science-Hype hinausblicken, wird von Unternehmen erwartet, dass sie ihr Geschäft durch den Einsatz von Vorhersagemodellen umstellen. Die Produkte müssen wartbar, leicht zugänglich und skalierbar sein. Modelle, die in der Produktion eingesetzt werden, erfordern Data Governance.
Berichte und interaktive Dashboards reichen nicht aus, um das Endergebnis sinnvoll zu beeinflussen. Erfolgreiche Proof of Concepts müssen in die Produktion übernommen werden. Dies kann nur erreicht werden, wenn das Unternehmen bereit ist, die Implementierung von Datenprodukten zu akzeptieren. .
Wenn Sie datengesteuert werden wollen, geht es um die Agilität Ihres Unternehmens und das Vertrauen in die Vorhersagen eines fortschrittlichen Analysemodells. Den Kurs eines Unternehmens zu ändern ist eine große Operation, die mit einer klar definierten Vision und der Unterstützung durch die Geschäftsleitung beginnt. Wenn ein Produkt von der Proof-of-Concept-Phase (POC) in die Produktion übergeht, sind die täglichen Abläufe davon betroffen. Die Einbeziehung anderer Teile der Organisation erfordert, dass die Beteiligten die potenziellen Auswirkungen begreifen. Wie mein Kollege Stijn Tonk, Datenwissenschaftler bei GoDataDriven, sagt, "werden Unternehmen die Hierarchie weiter verändern, indem sie zu agileren Prozessen und multidisziplinären Teams übergehen, die sich auf den Wert für den Endkunden konzentrieren".
Rationalisierung durch Standardisierung
In den letzten Jahren sind viele Unternehmen von traditionellen Data Warehouses und Datenbanken zu zentralen Data Lakes übergegangen. Mit der Realisierung eines zentralen Datenzugriffspunkts werden sich die Unternehmen 2017 auf die Standardisierung konzentrieren, indem sie Datenprodukte in Microservices verpacken und standardisierte Daten-Workflows einführen.
Die Organisation einbinden
Wenn Sie datengesteuert werden wollen, geht es vor allem um die Agilität des Unternehmens und das Vertrauen in die Vorhersagen eines fortschrittlichen Analysemodells. Den Kurs eines Unternehmens zu ändern, ist eine große Operation, die mit einer klar definierten Vision und der Unterstützung des Managements beginnt (Quelle: Big Data Survey 2016, www.bigdatasurvey.nl). Wenn ein Produkt von der Proof-of-Concept-Phase (POC) in die Produktion übergeht, sind plötzlich die täglichen Abläufe betroffen. Die Einbeziehung anderer Teile des Unternehmens erfordert, dass die Beteiligten die potenziellen Auswirkungen begreifen.
Microservices
Der Trend zu Microservices setzt sich in der Datenwissenschaft durch und macht Modelle über APIs leichter zugänglich. Datenwissenschaftler nutzen Container, um ihre Modelle bereitzustellen, so dass die gesamte Software, die zur Ausführung eines Modells erforderlich ist, im Container verfügbar ist.
Daten-Workflows
Reproduzierbare Wissenschaft und damit auch reproduzierbare Modelle sind gefragt:
- einen standardisierten Data Science-Workflow, von der Datengewinnung bis zur Modellbewertung und -überwachung.
- Workflow-Manager und Scheduler, wie z.B. Oozie und Airflow, um Skripte und manuelle Prozesse zu ersetzen, die wichtigsten Fehlerursachen zu beseitigen und die Modelloptimierung zu verbessern.
Governance
Wenn Datenprodukte im gesamten Unternehmen verwendet werden, erhalten auch mehr Personen Zugriff auf die Daten in den Modellen. Je größer die Auswirkung eines Datenprodukts auf das Unternehmen ist, desto größer ist auch das Datenrisiko für Ihr Unternehmen. Es ist daher keine Überraschung, dass Data Governance heutzutage eines der wichtigsten Themen ist.
Data Governance ist eine Reihe von Prozessen, die sicherstellen, dass wichtige Datenbestände im gesamten Unternehmen formell verwaltet werden. Sie stellt sicher, dass den Daten vertraut werden kann und dass Personen für alle negativen Ereignisse, die auf eine schlechte Datenqualität zurückzuführen sind, zur Verantwortung gezogen werden können. Es überträgt die Verantwortung für die Behebung und Vermeidung von Datenproblemen, so dass das Unternehmen effizienter werden kann. Wer hat Zugang zu den Daten? Welche Änderungen wurden an den Daten vorgenommen? Unternehmen müssen sich diese beiden Fragen stellen, wenn sie ein Datenprodukt in Produktion nehmen. Was passiert zum Beispiel, wenn eine zusätzliche Nummer zur IBAN hinzugefügt wird? Wo müssen Änderungen vorgenommen werden?
Innovationen im Bereich der Governance kommen von vielen Seiten und es gibt keinen eindeutigen Gewinner innerhalb des Hadoop-Ökosystems. Atlas und Cloudera Navigator sind die bekanntesten Lösungen. Ein bemerkenswerter Neuzugang in der Landschaft ist Linkedin's Wherehows.
Angewandte Datenwissenschaft
Viele Datenwissenschaftler haben die Theorien der Datenwissenschaft durch den Besuch von Kursen oder das Lesen von Büchern gelernt. Diese Lernmethoden bieten wenig reale Erfahrung mit den praktischen Einschränkungen und Herausforderungen, die bei ihrer Anwendung unvermeidlich sind.
Mit den wachsenden geschäftlichen Anforderungen ist Data Science gereift und professionelle Data-Science-Teams müssen sich mit den zahlreichen Facetten dieser Technologie vertraut machen, darunter:
- Modellierung
- Experimentieren
- Datenpipelines
- Programmierung
- Infrastruktureinrichtungen
- Architekturen
Die Wissenslücke zwischen selbsternannten Datenwissenschaftlern und erfahrenen Praktikern wird sich noch deutlicher zeigen. Um diese Kluft zu verkleinern, ist eine vertiefte und praxisnahe Ausbildung erforderlich.
Die Nachfrage nach leitenden Ingenieuren und Datenwissenschaftlern wird drastisch steigen, da diese Funktionen für die Entwicklung robuster Pipelines und die kontinuierliche Verbesserung der Produktionsmodelle unerlässlich sind.
Unternehmen müssen ihre Sozialleistungspläne überdenken. Das Management setzt in der Regel auf traditionelle Vorteile wie Gehälter und Firmenwagen. Aber die neugierige Natur von Datenwissenschaftlern zwingt sie, bei der Jobsuche nach weniger greifbaren Vorteilen zu suchen, wie z.B. organisatorische Transparenz, Raum zum Experimentieren und Teammitglieder, die über größere Fähigkeiten und Kenntnisse verfügen (Quelle: Big Data Survey 2016, www.bigdatasurvey.nl).
Wissen skalieren
Vincent Warmerdam, Data Scientist bei GoDataDriven, sagt : "Zu oft wird Innovation dadurch gebremst, dass das Rad neu erfunden wird und Experimente wiederholt werden, die nicht in einem zentralen Repository dokumentiert wurden. Sowohl Daten als auch Erfahrungen sollten zentral verfügbar gemacht werden. Dies erfordert eine solide Infrastruktur für den Wissensaustausch innerhalb der Organisation, die über ein einfaches Wiki oder eine SharePoint-Website hinausgeht. .
Technologie
Während die organisatorischen Herausforderungen zunehmen, werden die technologischen Herausforderungen im Jahr 2017 weniger schwer zu bewältigen sein. Plattformen und Modelle werden tagtäglich kommerzialisiert. Viele innovative Technologien werden als Open Source angeboten und über Cloud-Plattformen zugänglich gemacht, so dass diese Innovationen sofort eingesetzt werden können.
Wolke
Jetzt, wo die Cloud von den meisten Unternehmen als stabil und sicher wahrgenommen wird, könnte dies durchaus das Jahr sein, in dem die Cloud für die meisten Unternehmen zur Plattform der Wahl wird. Neben den etablierten Cloud-Angeboten wie Amazon und Azure ist Google Cloud der Elefant unter den Cloud-Anbietern. Das Angebot des Giganten aus Mountain View hat sich in Bezug auf Preis, Qualität und Leistung massiv weiterentwickelt. BigQuery, Dataflow und Dataproc sind nur einige der beeindruckenden Technologien, die die Vision von Zero OPS verkörpern.
Modelle maßstabsgetreu machen
Der Echtzeit-Trend wird die Systeme an neue Grenzen bringen. Laufen Ihre Algorithmen täglich? Oder vielleicht sogar stündlich? Die zukünftige Online-Welt wird Algorithmen brauchen, die sich jedes Mal ändern können, wenn ein Benutzer auf eine Schaltfläche klickt. Nur Algorithmen, die so schnell lernen können, sind echte Echtzeit-Algorithmen. Datenwissenschaftler werden von Lambda-Architekturen (mit einer Schicht für Geschwindigkeit und einer für Stapelverarbeitung) zu Kappa-Architekturen mit Funktionen übergehen, die Verarbeitungspipelines sowohl für Stapel- als auch für Echtzeitverarbeitung definieren. Apache Flink wird die Architektur der Wahl in diesem Bereich werden.
Ist es für die Late Majority zu spät, um aufzuholen?
Für Unternehmen, die neu in der Szene der Datenexperimente sind, wird es immer schwieriger, mitzuhalten. Während die frühen Anwender in einem sich entwickelnden Feld herumspielen konnten, wird die späte Mehrheit im Jahr 2017 mit denjenigen konkurrieren, die einen starken Wettbewerbsvorteil haben.
Die Experimentatoren haben bereits erfolgreich datengesteuerte Produkte auf den Markt gebracht. Sie verfügen über die richtige technologische Grundlage, qualifizierte Mitarbeiter und Prozesse. Sie haben ihre Plattform, Arbeitsabläufe und Modellierung automatisiert und sind bereit, in die Produktion zu gehen.
Jeden Tag mehr Wert zu schaffen und eine steigende Anzahl von Modellen bedeutet einen beträchtlichen Vorsprung. Aber das Rennen ist noch nicht vorbei.
Neue Sicht auf Vorteile
Data Scientists schätzen die Transparenz und die Fähigkeiten ihrer Kollegen mehr als das Gehalt (Big Data Survey 2016 www.bigdatasurvey.nl).
Dieser Artikel ist Teil des Urgent Future IT Forecast 2017.
{{cta('b89d0ce0-d977-48b9-b7c5-96354d8e52e4','justifycenter')}}

Unsere Ideen
Weitere Artikel

Das EU-Datenschutzgesetz: Ihr Fahrplan von der regulatorischen Belastung zur...
Verwandeln Sie die Einhaltung des EU-Datenschutzgesetzes in einen strategischen Vorteil. Erfahren Sie, wie vernetzte Unternehmen neue Umsätze...
Włodzimierz Marat

Stille Regeln, undichte Margen: Wie agentenbasierte KI die unsichtbare Logik im...
Agentische KI deckt die verborgenen Entscheidungsregeln auf, die das allgemeine Versicherungsgeschäft bestimmen. Erfahren Sie, wie Versicherer in APAC...
Abhishek Dwivedi
Contact

