Blog

Die wichtigsten Tools und Technologien für Data Engineering

Aktualisiert Oktober 20, 2025
16 Minuten

Dateningenieure können ein breites Spektrum an Aufgaben haben. In der Regel besteht ihre Hauptaufgabe darin, Daten nützlich und für andere Datenexperten - wie Data Scientists - zugänglich zu machen. Um dies zu erreichen, betreiben Data Engineers eine Datenpipeline, die, kurz gesagt, aus Rohdaten auf automatisierte Weise nützliche Informationen erzeugt. Darüber hinaus haben Data Engineers oft zusätzliche Aufgaben in den Bereichen Big Data, MLOps oder Visualisierung. Dennoch, keine dieser Aufgaben kann ohne das richtige Werkzeug ausgeführt werden. Deshalb werde ich Sie in diesem Artikel auf eine Reise durch die wichtigsten Data Engineering Tools mitnehmen. Mit diesen Tools sind Sie gut gerüstet, um alle wichtigen Data Engineering-Aufgaben zu erledigen.

Data Engineering Tools - Überblick

Zunächst einmal sei darauf hingewiesen, dass das Internet mit Hunderten von Data-Engineering-Tools und Technologien gefüllt ist (kennen Sie die Website Ist es Pokémon oder Big Data?). Infolgedessen finden Sie zahlreiche ausführliche Artikel über "die 20 wichtigsten Data-Engineering-Tools" oder "die fünf wichtigsten Data-Engineering-Tools für 2021". Ich möchte jedoch etwas anderes anbieten - und zwar einen maßgeschneiderten Ansatz.

Ich werde nicht die beliebtesten Tools auflisten. Stattdessen führe ich Sie durch die wichtigsten Data-Engineering-Aufgaben und schlage Ihnen die Tools vor, die Sie bei diesen Bemühungen am besten unterstützen.

Für die Zwecke dieses Leitfadens habe ich die Aufgaben der Datentechnik in 4 Hauptbereiche unterteilt. Diese Bereiche umfassen den Betrieb die Datenpipeline, Umgang mit Big Data, Erstellung von MLOps-Modelle, und Visualisierung Ihre Ergebnisse.

Wenn Sie bereits ein allgemeines Verständnis davon haben, was ein Dateningenieur tut, haben Sie wahrscheinlich erkannt, dass diese Bereiche selten getrennt sind. Big Data kann zum Beispiel Teil von ETL (oder ELT, der Grundlage von Datenpipelines) sein. Ebenso ist die Visualisierung ein wichtiger Bestandteil des Datenzugriffs (für Datenwissenschaftler, BI-Analysten oder Marketingabteilungen), der ebenfalls zu den Schritten der Datenpipeline gehört. Manchmal müssen Sie diese Aufgaben jedoch getrennt voneinander angehen. Und deshalb werde ich sie in diesem Artikel auch unabhängig voneinander behandeln.

Kommen wir also zu den Einzelheiten!

Reicht Python für Data Engineering aus?

Fangen wir damit an - um die meisten der Tools, über die wir sprechen werden, bedienen zu können, benötigen Sie eine Programmiersprache.

Was das Jahr 2021 betrifft, so ist Python so etwas wie ein Marktstandard in der Datentechnik. Python ist in vielen Bereichen nützlich. Außerdem ist es relativ leicht zu erlernen. Allerdings stellt sich oft die Frage, ob Python für Data Engineering ausreicht.

Die Antwort lautet: Es kommt darauf an.

Für die meisten Lösungen wird Python ausreichen. Es ist unbestreitbar die beliebteste Programmiersprache für die Datenverarbeitung - die Hauptaufgabe von Dateningenieuren. Außerdem ist sie auch für Data Science geeignet. Dennoch ist sie keine universelle Lösung, die für alle geeignet ist. So ist es beispielsweise nicht mit Tools wie Spark Streaming kompatibel, das nur von Scala oder Java verwendet werden kann. Außerdem sind C++-Kenntnisse von Vorteil (aber kein Muss), wenn Sie übermäßig komplizierte Aufgaben lösen wollen. Und im IoT ersetzen C und Rust oft Python.

TL;DR, Python sollte für die meisten Data Engineering-Aktivitäten ausreichend sein - allerdings nicht für alle.

Nachdem wir das nun geklärt haben, ist es an der Zeit, einen Blick auf die erste große Kategorie der Aufgaben des Data Engineering zu werfen - die Datenpipeline.

1: Daten-Pipeline

Daten-Pipeline

Wie ich bereits erwähnt habe, ist der Betrieb von Datenpipelines eine der wichtigsten Aufgaben des Data Engineering. Kurz gesagt, eine Datenpipeline ist eine Reihe von Aktionen, die Rohdaten aus verschiedenen Quellen aufnehmen und die Daten zur Speicherung und Analyse an ein Ziel übertragen. Mithilfe einer Datenpipeline können Dateningenieure das Chaos in verständliche Informationen umwandeln, die dann für andere Fachleute nützlich sind (um Geschäftsentscheidungen zu treffen, ML-Modelle zu füttern und vieles mehr).

Für den Anfang brauchen Dateningenieure Daten. Diese können sie erhalten, indem sie eine Datenquelle automatisieren, die Informationen auf automatisierte, wiederholbare Weise liefert.

Damit wird der Hauptprozess innerhalb einer Datenpipeline in Gang gesetzt - der ETL-Workflow.

ETL-Arbeitsabläufe

Die Buchstaben ETL stehen für Extraktion, Transformation und Laden. Sobald die Sätze unverarbeiteter Informationen eintreffen, muss der Dateningenieur diese Daten bereinigen (und möglicherweise anreichern), um sie nützlich zu machen. Schließlich sind Rohdaten ohne einen gemeinsamen Nenner nicht sehr nützlich (wenn überhaupt). Diese Aufgabe kann zum Beispiel die Vereinheitlichung von Datumsformaten umfassen, um Vergleiche zu ermöglichen. Nachdem dieser Schritt abgeschlossen ist, können die Daten gespeichert, visualisiert (z.B. für Marketingzwecke) oder auf andere Weise verwendet werden.

Die Begriffe ETL und Datenpipeline werden manchmal synonym verwendet, aber ich würde sie nicht als das Gleiche betrachten. Eine Datenpipeline kann einfach jeder Prozess sein, der Daten von einem System zu einem anderen transportiert. Eine Datenpipeline bedeutet jedoch nicht, dass die Daten in irgendeiner Form umgewandelt werden. Aus dieser Sicht ist die Datenpipeline ein weiter gefasster Begriff. Jede ETL ist Teil einer Datenpipeline, aber nicht jede Datenpipeline muss ein ETL-Workflow sein.

Und schließlich lassen Sie uns einen Blick auf die Tools werfen, die ich für den Betrieb von ETL-Workflows empfehlen würde.

Apache Airflow

Apache Airflow hat sich zu einem weit verbreiteten Tool für die Orchestrierung und Planung von Datenpipelines für die Stapelverarbeitung entwickelt. Es kann auch den Fortschritt von Workflows überwachen, die mehrere Tage dauern.

Der größte Vorteil von Airflow sind die eingebauten Integrationen, mit denen Sie Aufgaben schnell ausführen können. Daher müssen Sie oft nur eine Zeile schreiben, um eine Aufgabe zu erledigen. Im Vergleich dazu müssen Sie bei Argo, das wir weiter unten behandeln, einen ganzen Schritt in Dockerform erstellen. Das nimmt natürlich viel mehr Zeit in Anspruch.

Das Tool ist quelloffen.

Erfahren Sie hier mehr: Apache Airflow

Luigi

Luigi ermöglicht den Aufbau komplexer Datenpipelines aus Batch-Aufträgen. Es übernimmt die Auflösung von Abhängigkeiten, das Workflow-Management, die Visualisierung und mehr.

Laut der GitHub-Beschreibung kümmert sich Luigi um alle Probleme, die typischerweise mit langlaufenden Batch-Prozessen verbunden sind. Wenn Sie viele Aufgaben verketten und automatisieren, kann es zu Fehlern kommen. Dieses Problem tritt typischerweise bei lang laufenden Aufgaben wie Hadoop-Jobs, der Ausführung von ML-Algorithmen, dem Dumping von Daten aus oder in Datenbanken - und eigentlich bei allem anderen - auf. Luigi hilft, diese Probleme zu lösen.

Das Tool ist quelloffen.

Erfahren Sie hier mehr: Spotify Luigi auf GitHub

Argo Arbeitsabläufe

Argo Workflows ist eine Workflow-Engine für die Orchestrierung paralleler Aufträge auf Kubernetes. Sie ermöglicht die schnelle Ausführung rechenintensiver Datenverarbeitungsaufträge.

Die Lösung wurde von Grund auf für Container entwickelt, ohne den Overhead und die Einschränkungen herkömmlicher VM- und Server-basierter Umgebungen. Daher ist die Lösung technologieunabhängig - das heißt, Sie können Workflows in jeder beliebigen Sprache ausführen.

Und außerdem ist die Website von Argo grafisch sehr ansprechend gestaltet. (Aber das ist nur eine Randbemerkung und sollte Ihre Entscheidung nicht beeinflussen, denke ich).

Argo ist quelloffen.

Erfahren Sie hier mehr: Argo Projekt

Datenzugriff

Nachdem der ETL-Workflow betriebsbereit ist und verwertbare Daten eingehen, muss der Dateningenieur diese Daten für andere verfügbar machen. Diese Phase wird als Datenzugriffsschicht bezeichnet.

Je nachdem, wie die Daten genutzt werden sollen, kann ein Dateningenieur hier verschiedene Ansätze verfolgen. Wenn die Daten von externen Parteien genutzt werden sollen, kann der Zugriff über eine API erfolgen. Sind die Daten für den internen Gebrauch bestimmt, können sie entweder in Data Warehouses (DWH) oder auf einem Blob-Speicher gespeichert werden. In beiden Fällen müssen Sicherheit und Zugriffskontrolle unbedingt berücksichtigt werden.

Blob-Speicher ist die optimale Wahl, wenn Sie keinen schnellen Zugriff benötigen und Wert darauf legen, die Kosten für die Speicherung niedrig zu halten. Diese Speicherart ist zum Beispiel nützlich, wenn Sie ML-Modelle füttern wollen, damit sie lernen. Blob-Speicher ist eine Form der kalten Speicherung.

Data Warehouses sind etwas ganz anderes. Sie sind dafür konzipiert, große Datensammlungen zu speichern, zu filtern, zu extrahieren und zu analysieren. Das Hochladen von Daten in ein DWH setzt eine Struktur voraus und ermöglicht mehrere Visualisierungsoptionen, die ein Blob-Speicher nicht bietet.

Nebenbei bemerkt, ist es wichtig, darauf hinzuweisen, dass während der ETL-Phase auch Daten gespeichert werden. Schließlich müssen sie ja irgendwo gespeichert werden. Ich erörtere den Datenzugriff jedoch separat, da er unabhängig von ETL-Workflows existiert.

AWS S3, Microsoft Azure Blob Storage, Google Cloud Storage

Diese 3 Lösungen sind Beispiele für beliebte Cloud-basierte Blob-Speicherlösungen.

Sie alle bieten intelligentes Tiering, mit dem Sie die Speicherkosten noch weiter senken können. Sie sind eine hervorragende Option für die Archivierung großer Datenmengen.

Diese Lösungen sind nicht quelloffen.

Sehen Sie hier mehr: Amazon S3

Microsoft Azure Blob-Speicher

Google Cloud-Speicher

Amazon Redshift

Amazon Redshift ist eine vollständig verwaltete Cloud Data Warehouse-Lösung, die für die Speicherung und Analyse großer Datensätze konzipiert wurde. Sie ermöglicht auch Datenbankmigrationen in großem Umfang. Die Redshift-Datenbank verbindet SQL-basierte Clients und BI-Tools und stellt den Benutzern Daten in Echtzeit zur Verfügung.

Insgesamt ist Amazon Redshift eine großartige Alternative zu On-Premise-DWHs.

Amazon Redshift ist nicht Open Source - es ist nur in der AWS Cloud verfügbar.

Erfahren Sie hier mehr: Amazon Redshift

Snowflake Data Warehouse

Snowflake DWH kann in der AWS- oder Azure-Cloud-Infrastruktur bereitgestellt werden. Es ist einfach zu bedienen. Die Übertragung von Daten in Snowflake mit einer ETL-Lösung ist ein Kinderspiel. Snowflake verfügt außerdem über einen weiteren Service - SnowPipe - der ein praktisches ETL-Tool ist.

Abgesehen davon ist Snowflake für seine Architektur und die Möglichkeiten zur gemeinsamen Nutzung von Daten bekannt. Es ermöglicht eine unabhängige Skalierung von Speicher und Rechenleistung.

Snowflake DWH ist quelloffen.

Erfahren Sie hier mehr: Snowflake Data Warehouse-Modernisierung

Streaming

Das letzte Element der Datenpipeline ist das Streaming von Daten. Technisch gesehen ist dies jedoch kein nächster Schritt nach der Einrichtung von ETL-Workflows und dem Datenzugriff - es ist eine andere Form von ETL, für kontinuierlich ankommende Daten.

Datenströme sind der kontinuierliche Fluss von Daten. Die Daten können aus allen Arten von Quellen, unterschiedlichen Formaten und Mengen stammen. Mit der Stream Processing-Technologie können Datenströme sofort verarbeitet, gespeichert, analysiert und bearbeitet werden, da sie in Echtzeit erzeugt werden.

Deshalb ist Streaming so großartig... und so teuer. Wenn Sie keine sofortige Ausgabe aus Ihrer Datenpipeline benötigen, ist Streaming nicht notwendig, und die Stapelverarbeitung reicht aus.

Schauen wir uns nun ein paar Streaming-Tools an.

Apache Kafka

Apache Kafka ist eine verteilte Event-Streaming-Plattform für hochleistungsfähige Datenpipelines, Streaming-Analysen, Datenintegrationen und unternehmenskritische Anwendungen.

Kafka hat eine breite Benutzerbasis und eine große Community. Laut der Website der Plattform nutzen 80% aller Fortune 100 Unternehmen die Plattform.

Apache Kafka ist quelloffen.

Erfahren Sie hier mehr: Apache Kafka

Amazon Kinesis

Amazon Kinesis ermöglicht das Sammeln, Verarbeiten und Analysieren von Streaming-Daten in Echtzeit für zeitnahe Einblicke und schnelle Reaktionen auf neue Informationen. Das Aufnehmen, Zwischenspeichern und Verarbeiten von Streaming-Daten beschränkt sich damit auf Sekunden oder Minuten statt auf Stunden oder Tage.

Amazon Kinesis ist nicht quelloffen.

Erfahren Sie hier mehr: Amazon Kinesis

2. Datenvisualisierung

Datenvisualisierung

Nachdem alle Daten nutzbar und zugänglich sind, sind die Dateningenieure auch für ihre Visualisierung verantwortlich, falls erforderlich. Visualisierungen sind ungeheuer wichtig. Denn selbst wenn die von der Datenpipeline generierten Informationen genau das sind, was Ihr Unternehmen für eine wichtige datengestützte Entscheidung benötigt, wird diese Entscheidung schwer zu treffen sein, wenn die aus den Daten gezogenen Schlussfolgerungen nicht klar sind.

Es gibt verschiedene Ansätze zur Visualisierung.

Erstens ist es auf einfacher Ebene möglich, in der EDA - sogar mit Python - zu arbeiten. Mit Python können Sie anspruchsvolle Dashboards erstellenAllerdings mit einem großen Nachteil - es braucht Zeit. Daher sind diese einfachen Visualisierungen oft nur zur Unterstützung des maschinellen Lernens nützlich. Da diese Berichte statisch sind, kann darin nicht viel geändert werden.

Eine weitere, komplexere Visualisierungsoption sind On-Demand-Berichte, die durch benutzerdefinierte BI-Tools unterstützt werden. Sie werden hauptsächlich für Business Analysten erstellt. Im Gegensatz zu EDA-Berichten sind sie dynamisch. Nachdem sie eingerichtet sind, können selbst technisch nicht versierte Personen die Dashboards ändern und sich die Informationen herauspicken, die sie am meisten interessieren - wie in Tableau.

Schließlich gibt es auch benutzerdefinierte JS-Apps. Sie sind vor allem dann nützlich, wenn Sie Ihre Daten externen Benutzern zur Verfügung stellen (oder verkaufen) - zum Beispiel in Form von Open Street Apps. Diese Lösungen sind zwar teuer, bieten aber nahezu unbegrenzte Flexibilität.

Wenn es um handelsübliche Tools geht, würde ich Ihnen die Verwendung mehrerer Tools empfehlen.

Tableau

Das oben erwähnte Tableau ist eine Analyse- und Business Intelligence-Plattform. Sie bietet interaktive Dashboards, schnelle Reaktionszeiten und Funktionen zur Datenanalyse in Echtzeit. Tableau hat eine der größten Benutzergruppen, wenn es um Visualisierungstools geht. Außerdem bietet es einen guten Support.

Tableau ist nicht quelloffen.

Erfahren Sie hier mehr: Tableau

Microsoft Power BI

Mit Microsoft Power BI können Sie umfangreiche interaktive Berichte mit visuellen Analysen erstellen. Damit können Sie tiefgreifende, umsetzbare Erkenntnisse für eine breite Palette von Szenarien entwickeln.

Microsoft Power BI ist quelloffen. Es unterstützt Python.

Wir haben auch einen ausführlichen Artikel über die Verwendung von Microsoft Power BI geschrieben. Lesen Sie ihn unbedingt, um mehr über dieses Tool zu erfahren.

3. Große Daten

Große Daten

Big Data kann entweder Teil des ETL-Prozesses oder eine völlig unabhängige Transformation sein. Wenn sie Teil des ETL-Prozesses sind, beschleunigen sie die Datentransformation - statt kleinere Datenströme zu transformieren, können Sie mit Big Data riesige Datenmengen auf einmal bearbeiten.

Im Allgemeinen besteht das Ziel dieser Data Engineering-Verantwortung darin, enorme Datenströme effizient zu verwalten. Dazu sind entweder sehr starke Rechenmaschinen oder mehrere kleinere, aber weniger leistungsfähige Maschinen in der Lage. Der zweite Ansatz ist moderner und kostengünstiger - alles im Sinne von hoher Geschwindigkeit und einfachem Zugriff auf Daten.

Und sie sind Werkzeuge, die dies möglich machen.

Verteiltes Dateisystem Hadoop (HDFL)

Hadoop ist ein verteiltes Verarbeitungsframework, das die Datenverarbeitung und -speicherung für Big Data-Anwendungen verwaltet. HDFS ist ein wichtiger Bestandteil der vielen Technologien des Hadoop-Ökosystems, die weiter unten beschrieben werden. Es bietet ein zuverlässiges Mittel zur Verwaltung von Big Data-Pools und zur Unterstützung damit verbundener Big Data-Analyseanwendungen.

HDFS ist für die Arbeit mit riesigen Dateien ausgelegt. Eine typische HDFS-Datei ist in Gigabytes bis Terabytes gemessen. Daher sollte das System eine hohe aggregierte Datenbandbreite bieten und auf Hunderte von Knoten in einem einzigen Cluster skalieren können - und damit Dutzende von Millionen von Dateien in einer einzigen Instanz unterstützen.

Es basiert auf Hadoop, das Open Source ist. Open Source ist.

Erfahren Sie hier mehr: Hadoop HDFS Design Dokumentation

Apache Spark

Apache Spark ist eine einheitliche Analyse-Engine für die Verarbeitung großer Datenmengen. Obwohl Spark als Einzellösung funktioniert, kann es auch mit anderen Tools (z.B. auf Kubernetes) eingesetzt werden, um leistungsfähigere, hoch skalierbare Umgebungen zu schaffen.

Außerdem unterstützt Spark eine Reihe von Bibliotheken wie SQL oder DataFrame und mehr. Am wichtigsten ist jedoch, dass Spark sowohl für Batch- als auch für Streaming-Daten eine hohe Leistung bietet - und das alles mit Hilfe eines hochmodernen DAG-Schedulers, eines Abfrageoptimierers und einer physischen Ausführungsengine.

Die Engine ist quelloffen.

Erfahren Sie hier mehr: Apache Spark

Apache Hive

Hive erleichtert das Lesen, Schreiben und Verwalten großer Datensätze, die sich in einem verteilten Speicher befinden, mit SQL. Die Struktur kann auf bereits gespeicherte Daten projiziert werden.

Obwohl ebenfalls von Apache entwickelt - genau wie Spark - und ebenfalls auf Big Data-Operationen ausgerichtet, ist Hive ein Tool für unterschiedliche Zwecke. Während Spark ein Framework für die Datenanalyse ist, ist Hive eine verteilte Datenbank, die mit dem Hadoop Distributed File System arbeitet.

Die Datenbank ist quelloffen.

Erfahren Sie hier mehr: Apache Hive

Andere Apache Tools

Diese beiden oben genannten Tools sind bei weitem nicht alle Big Data-Tools (erinnern Sie sich an unser Beispiel für Pokémon oder Big Data-Tools?) Aber um das gesamte Apache-Toolset zu behandeln, wäre ein eigener Artikel erforderlich. Wenn Sie mehr über Big Data-Technologien lesen möchten, besuchen Sie die Website der Apache Foundation.

4. Operationen des maschinellen Lernens

MLOps

Viele Experten betrachten MLOps als eine Zwischenkategorie. Einige sagen, es beginnt während des ETL-Workflows, andere, dass es mit der Datenspeicherung beginnt.

Aber unabhängig von dieser theoretischen Frage gibt es bei MLOps zwei Phasen - Experimente und Produktion.

Die experimentelle Phase erfordert einen raschen Zugriff auf Daten. Während der Experimente validieren die Datenwissenschaftler Hypothesen anhand von Beispieldaten; sobald sie etwas gefunden haben, beginnt die Produktionsphase. Die Produktion erfordert einen effizienten Datenzugriff und darf die transaktionale Dateninfrastruktur nicht verlangsamen.

Die Experimentierphase konzentriert sich auf schnelles Experimentieren und die Iteration von Ideen. Datenwissenschaftler sollten flexible Arbeitsumgebungen und geeignete Daten erhalten - und Dateningenieure machen dies möglich. Nach jedem Durchbruch in der Experimentierphase muss die Produktionsphase alle schweren Aufgaben übernehmen. Dazu gehören automatisiertes Modelltraining und Hyperparameter-Tuning, Modellbereitstellung und Überwachung in der Produktion (und im Day2-Betrieb).

Die folgenden Tools können Ihnen in diesen Phasen helfen.

Kubeflow

Kubeflow, ein von Google initiiertes Projekt, ermöglicht es, eine Reihe von Open-Source-Tools für MLOps zu verwalten und sie auf Kubernetes einzusetzen.

Kubeflow ist darauf ausgerichtet, ML-Workflows auf skalierbare Weise zu erstellen und zu verwalten. Das Tool zielt nicht nur darauf ab, andere Dienste nachzubilden, sondern bietet eine einfache Möglichkeit, die besten Open-Source-Systeme für ML in verschiedenen Infrastrukturen einzusetzen.

Die Plattform ermöglicht die Arbeit an Machine Learning Operationen sowohl in der Produktion als auch in der experimentellen Phase.

Kubeflow ist quelloffen.

Sehen Sie hier mehr: Kubeflow

MLflow

Wie Kubeflow ist MLflow eine Plattform für die Verwaltung von End-to-End-Lebenszyklen für maschinelles Lernen. Das Konzept von MLflow besteht aus vier Komponenten: Verfolgung, Projekte, Modelle und Modellregistrierung. Jede dieser Komponenten kann für sich allein verwendet werden, sie sind jedoch so konzipiert, dass sie gut zusammenarbeiten.

Laut der offiziellen Website ist die Plattform so konzipiert, dass sie mit jeder Bibliothek für maschinelles Lernen zusammenarbeitet, die meisten Dinge über Ihren Code durch Konvention bestimmt und nur minimale Änderungen zur Integration in eine bestehende Codebasis erfordert. Gleichzeitig ist es das Ziel von MLflow, jede Codebasis, die in seinem Format geschrieben wurde, wiederverwendbar und reproduzierbar für mehrere Datenwissenschaftler zu machen.

MLflow bietet, genau wie Kubeflow, eine vereinfachte Methode zur Bereitstellung Ihrer ML-Pipeline mit Experimentverfolgung und Produktionsworkflow.

ML Flow ist quelloffen.

Sehen Sie hier mehr: MLflow

Heilig

Sacred ist ein Werkzeug zum Konfigurieren, Organisieren, Protokollieren und Reproduzieren von Berechnungsexperimenten. Es ermöglicht einen minimalen Overhead und fördert gleichzeitig die Modularität und Konfigurierbarkeit von Experimenten.

Sacred hilft Ihnen vor allem, den Überblick über alle Parameter Ihres Experiments zu behalten, Experimente mit verschiedenen Einstellungen einfach durchzuführen, Konfigurationen für einzelne Läufe in Dateien oder einer Datenbank zu speichern und die erzielten Ergebnisse zu reproduzieren.

Sacred ist ein gutes Werkzeug für Verfolgung von Experimenten; Es bietet jedoch weniger Optionen als MLflow, das sich nicht nur auf die Verfolgung der Experimentierphase konzentriert.

Sacred ist quelloffen.

Sehen Sie hier mehr: Heilige Dokumentation

Amazon SageMaker

Jede Cloud-Lösung verfügt über ein eigenes ML Ops-Tool. Die AWS Cloud bietet den Amazon SageMaker. Damit können Dateningenieure dank einer breiten Palette von auf ML zugeschnittenen Funktionen hochwertige ML-Modelle in der AWS Cloud schnell vorbereiten, erstellen, trainieren und bereitstellen.

SageMaker ist eine gute Wahl für die Durchführung von Hyperparameter-Sweeps und die allgemeine Orchestrierung von Läufen.

Amazon SageMaker ist nicht quelloffen.

Erfahren Sie hier mehr: Amazon SageMaker

Top Data Engineering Tools - Zusammenfassung

Die Arbeit mit den richtigen Tools ist entscheidend für den Erfolg im Data Engineering. Und die erste große Herausforderung in diesem Bereich besteht darin, die für Ihre Bedürfnisse optimalen Tools zu finden.

Wir haben in diesem Artikel viele Tools und Technologien aufgelistet, aber denken Sie daran - dies war nur ein Überblick. Obwohl die Liste hauptsächlich die beliebtesten Lösungen enthält, gibt es noch viele, viele andere, die Ihnen helfen können, die gewünschten Ergebnisse zu erzielen.

Viel Glück!

Contact

Let’s discuss how we can support your journey.