Dieser Blog ist zuerst bei Xebia Global erschienen. Er wurde von uns ins Deutsche übersetzt.
Leute, die sich nicht mit Datenverarbeitung auskennen, fragen manchmal: Ist ein Data Engineer dasselbe wie ein Data Scientist? Natürlich nicht. Dennoch gibt es grosse Überschneidungen bei diesen beiden Jobs, wodurch sie miteinander verbunden sind.
Damit du den gesamten Überblick bekommst, erkläre ich dir jetzt genauer, worin der Unterschied zwischen Data Scientists und Data Engineers liegt.
Data Engineering vs. Data Science – Allgemeiner Überblick
Generell gesagt entwickeln und warten Data Engineers Lösungen, die es Data Scientists ermöglichen, auf Daten im grossen Stil zuzugreifen und sie zu analysieren (z. B. Cloud-Infrastruktur). Data Engineering umfasst die Entwicklung, Konstruktion, Prüfung und Wartung von Architekturen wie Datenbanken und gross angelegten Verarbeitungssystemen. Daher ist diese Rolle relativ nah an einem DevOps-Engineer mit Datenspezialisierung – Data Engineers sollten wissen, wie man Datenmodelle entwickelt, Datenpipelines erstellt und ETL-Workflows überwacht.
Data Scientists hingegen richten prädiktive Modelle ein und trainieren sie mit den Daten, die sie von Data Engineers erhalten. Dazu müssen sie Erkenntnisse gewinnen und Experimente mit Datenproben durchführen. Folglich verbringen Data Scientists die meiste Zeit damit, Algorithmen für maschinelles Lernen zu entwickeln, zu testen und zu optimieren. Anschliessend präsentieren sie ihre Analysen Führungskräften und Entscheidungsträgern.
Das ist jedoch nur eine theoretische (und vereinfachte) Perspektive. Als Nächstes gehen wir also tiefer in die technischen Details ein.
Der Unterschied zwischen Data Scientist und Data Engineer – Technische Perspektive
Im Grossen und Ganzen arbeiten Data Engineers und Data Scientists in ähnlichen Bereichen, wodurch sich ihre Aufgaben überschneiden. Manchmal übernehmen sogar beide Experten ähnliche Tätigkeiten. Allerdings können die Details davon abhängen, wie ein Unternehmen diese Rollen definiert.
Nehmen wir zum Beispiel die Datenbereinigung. Je nachdem, wen du fragst, bekommst du möglicherweise ein völlig anderes Bild von dieser Aufgabe. Einige sagen, sie falle in den Aufgabenbereich von Data Scientists, andere wiederum sehen sie als Teil des ETL-Workflows, der von Data Engineers betrieben wird. Diese Diskrepanz rührt wahrscheinlich daher, dass beide Datenspezialisten tatsächlich viel mit Datenbereinigung zu tun haben – allerdings auf unterschiedlicher Ebene. Data Scientists bereinigen Daten oft manuell, während Data Engineers die Bereinigungsprozesse automatisieren. Dafür gibt es einen konkreten Grund.
Aber bevor ich erkläre, was dieser Grund ist, werfen wir einen Blick auf diese Grafik für einen umfassenderen Vergleich der Verantwortlichkeiten:
Experimente vs. Produktion
Dieser unterschiedliche Fokus innerhalb derselben Bereiche ergibt sich nun daraus, dass Wissenschaftler hauptsächlich Experimente durchführen. Folglich arbeiten sie mit Datenproben. Data Engineers hingegen arbeiten mit grossen Datenströmen und Batches, automatisieren Datenpipelines und implementieren schliesslich Modelle in der Produktion.
Um auf die Datenbereinigung zurückzukommen, gebe ich dir dieses Beispiel. Wir haben bereits festgestellt, dass beide Rollen Daten bereinigen, dies jedoch in der Regel auf unterschiedliche Weise tun. Wenn Data Scientists Daten während Experimenten bereinigen, können die Dateien, mit denen sie arbeiten, beispielsweise jeweils 10.000 Informationszeilen umfassen. Im Gegensatz dazu arbeiten Data Engineers möglicherweise mit Dateien, die 10.000.000.000 Zeilen haben. Solch eine Datei würdest du ja nicht gerne manuell durchgehen, oder? Natürlich machen Data Scientists das nicht wirklich Zeile für Zeile. Data Engineers automatisieren den Prozess jedoch und die Bereinigung erfolgt automatisch, sobald neue Daten eintreffen. Bei ihrer Arbeit dreht sich also alles um Wiederholbarkeit und Nachvollziehbarkeit.
Data Engineer vs. Data Scientist – Musterhafte Zusammenarbeit in einem Projekt
Um dir einen praktischeren Einblick in die Zusammenarbeit zwischen einem Data Engineer und einem Data Scientist zu geben, nehme ich dich mit an ein beispielhaftes ML-Projekt.
Start
Bevor sie loslegen können, brauchen unsere Datenexperten Daten (du kannst mich ruhig Paolo Coelho nennen). In kommerziellen Projekten werden diese Daten entweder vom Kunden geliefert oder von Data Engineers (nachdem sie eine geeignete Quelle gefunden haben). In dieser Anfangsphase werden Data Engineers die Daten auch zum ersten Mal bereinigen – allerdings nur grob, da es zu diesem Zeitpunkt hauptsächlich darum geht, die Daten bereitzustellen.
Als Nächstes werden Data Scientists mit einem Datenstichproben aus den bereinigten Daten anfangen zu experimentieren. Sie werden die Daten weiter bereinigen, eine explorative Datenanalyse durchführen, an neuem Feature Engineering arbeiten und, am wichtigsten, an Modellen für Machine Learning. Irgendwann werden sie wahrscheinlich auch Data Engineers um weitere verwendbare Daten bitten.
Gleichzeitig werden Data Engineers Automatisierungsprozesse einleiten und an der zugrunde liegenden Infrastruktur arbeiten, die den Data Scientists helfen wird. Sie können die Datenbereinigung auch weiter automatisieren, nachdem die Daten von den Data Scientists verbessert wurden.
Zyklen
In dieser Phase werden die Aufgaben beider Datenberufe wahrscheinlich zyklisch ablaufen. Data Scientists werden weitere Modelle trainieren, basierend auf neuen Daten, und Data Engineers werden relevante Architekturen entwickeln und automatisieren, und so weiter. Schliesslich endet diese Phase, wenn Data Scientists ein zufriedenstellendes prädiktives Modell (mit Code) entwickeln.
Mit diesem Modell können Data Engineers eine Automatisierung für das Modelltraining entwickeln und sich um das Hosting und Monitoring kümmern. Gleichzeitig arbeiten Data Scientists daran, weitere Erkenntnisse aus der Datenquelle zu gewinnen, und nachdem die Data Engineers mit ihrem Teil fertig sind, sammeln sie Feedback (und analysieren es).
Produktion
Schliesslich, wenn das Modell als gut genug und produktionsreif erachtet wird, starten die Data Engineers die Produktionsphase.
Zusätzlich, wenn Visualisierungen benötigt werden, liefern die Data Scientists das WAS (was visualisiert werden sollte) und die Data Engineers kümmern sich um das WIE (wie diese Visualisierung technisch umgesetzt werden kann).
Data Engineer vs. Data Scientist – Gehalt
Eine weitere häufige Frage lautet: Wer verdient mehr – Data Engineer oder Data Scientist?
Die Antwort hängt stark von der jeweiligen Region ab. In den USA verdienen Data Scientists auf dem Papier etwas mehr. Laut Glassdoor beträgt das durchschnittliche jährliche Grundgehalt eines Data Scientists in den Vereinigten Staaten 115.594 US-Dollar. Im Vergleich dazu sollen Data Engineers etwa 111.246 US-Dollar pro Jahr verdienen.
Im Vereinigten Königreich hingegen sieht die Antwort ganz anders aus. Indeed schätzt, dass britische Data Scientists 50.769 £ pro Jahr verdienen, während Data Engineers im Durchschnitt angeblich 56.376 £ pro Jahr verdienen.
In Polen – wo ich arbeite – berichtet Devire, dass Data Engineers, die in der Hauptstadt beschäftigt sind, statistisch gesehen 18.000 PLN pro Monat verdienen, während Data Scientists im Durchschnitt 20.000 PLN verdienen.
Ich muss jedoch darauf hinweisen, dass die typischen Aufgaben von Data Scientists und Data Engineers in Europa und den USA möglicherweise unterschiedlich verstanden werden – und daher rühren wahrscheinlich diese geringfügigen Gehaltsunterschiede.
Letztendlich kann man wohl sagen, dass beide Rollen ähnlich gut bezahlt werden. Und da Data Services derzeit sehr gefragt sind, sollten Experten, die Data-Science-Lösungen und Data-Engineering-Dienstleistungen anbieten, relativ hohe Gehälter erwarten können.
Data Engineer vs. Data Scientist vs. ... Data Analyst?
Es gibt noch eine dritte Datenrolle, die ich kurz erwähnen möchte: den Data Analyst.
Während Data Scientists an neuen Wegen arbeiten, Daten zu nutzen und zu analysieren, machen Data Analysts hauptsächlich Sinn aus Daten, die bereits einen klaren Zweck haben. In der Praxis analysieren Data Analysts numerische Daten (und möglicherweise mehr), um Führungskräften bei ihren Entscheidungen zu helfen.
Im Vergleich zu Data Engineers und Data Scientists ist der Data Analyst in der Regel eine Einstiegsposition in der Datenwelt. Edureka berichtet, dass die Hauptvoraussetzungen für die Landung eines Jobs als Data Analyst ein entsprechender Bachelor-Abschluss und gute Statistikkenntnisse sind. Technische Fähigkeiten sind ein Pluspunkt, der einem Bewerber helfen kann, sich von anderen Kandidaten abzuheben.
Data Engineer vs. Data Scientist – Zusammenfassung
Wie du siehst, sind Data Engineer und Data Scientist zwei unterschiedliche Rollen – aber sie haben viel gemeinsam.
Ich muss jedoch erneut betonen, dass das Verständnis von Data Engineering und Data Science je nach Region erheblich variieren kann. In den USA beispielsweise sind die Aufgaben von Data Engineers weniger spezifiziert als in Europa, was dazu führt, dass die Rolle weiter gefasst wird.
Wenn du jedoch in einer Organisation bist, die ihre eigenen Datenlösungen entwickeln möchte, musst du dir um diese Themen keine Sorgen machen. Ein Softwarepartner wird zunächst deine Geschäftsanforderungen kennenlernen (oder identifizieren) und Rollen und Projekte an diese anpassen – du musst die Rollen von Data Engineering und Data Science nicht selbst definieren. In diesem Fall werden die Data Scientists in der Regel damit beginnen, dich zu interviewen und deine Abläufe und Daten zu analysieren. Dank ihrer guten technischen Fähigkeiten und ihres tiefen Geschäftsverständnisses können sie an Erkenntnissen arbeiten, die zu optimalen Ergebnissen führen.