Blog

Data Lake vs. Data Warehouse - was ist 2022 zu wählen?

Aktualisiert Oktober 20, 2025
5 Minuten

In den späten 1980er Jahren entwickelten IBM-Forscher die Idee des "Business Data Warehouse". Seitdem haben sich Data Warehouses (DWHs) zu einem immer wichtigeren Datenspeicher entwickelt, in dem verarbeitete Daten mit einem klaren Zweck gespeichert werden. Doch der Markt bietet auch Alternativen - wie den Data Lake. In diesem Blogbeitrag vergleichen wir diese beiden Systeme, um Ihnen bei der Auswahl des für Ihre Bedürfnisse am besten geeigneten Systems zu helfen.

Datensee

Data Lake vs. Data Warehouse - Überblick

Im Jahr 2021 sind Data Lakes und Data Warehouses die beiden beliebtesten Optionen für die Speicherung von Big Data. Ihre Ziele sind jedoch sehr unterschiedlich.

Angefangen bei der Art der gespeicherten Daten und ihrem allgemeinen Zweck, über die Benutzer, die auf die Daten zugreifen können, bis hin zu den Aufgaben, die sie erfüllen können, stehen sie in gewisser Weise zwei extremen Gegensätzen gegenüber.

Um sie zu vergleichen, werden wir beide zunächst beschreiben und anschließend ihre Unterschiede zusammenfassen.

Lassen Sie uns zunächst einen Blick auf Data Warehouses werfen.

Was ist ein Data Warehouse (DWH)?

Unter Berufung auf AWS sind Data Warehouses zentrale Informationsspeicher. Die darin gespeicherten Daten können aus verschiedenen Quellen stammen, z.B. aus transaktionalen Systemen oder relationalen Datenbanken. Allerdings kann nicht jeder diese Informationen nahtlos nutzen. Um auf die Daten zuzugreifen, muss man BI-Tools, SQL-Clients oder andere Analyseanwendungen verwenden. Daher ist die Arbeit mit den Informationen in Data Warehouses in der Regel Fachleuten wie Business-Analysten, Dateningenieuren, Datenwissenschaftlern und anderen technologiebewussten Entscheidungsträgern vorbehalten.

Darüber hinaus sind DWHs nicht in jedem Geschäftsszenario nützlich. Um zu verstehen, wie (und wann) Data Warehouses einen Nutzen bringen können, ist es wichtig zu verstehen, wie sie funktionieren.

Und wieder beschreibt AWS die Besonderheiten gut.

Data Warehouses enthalten mehrere Datenbanken. In jeder von ihnen sind die Informationen in Tabellen und Spalten organisiert. Innerhalb jeder Spalte können Sie eine Beschreibung der Informationen definieren, z.B. Integer, Datenfeld oder String. Sie können Tabellen in Schemas organisieren, die so etwas wie Data Warehouse-Ordner sind. Nachdem die Daten zum Data Warehouse hinzugefügt wurden, werden sie in verschiedenen Tabellen gespeichert, die durch das Schema beschrieben werden. Schließlich ermöglicht das Schema Abfragetools die Festlegung, auf welche Datentabellen sie zugreifen und diese analysieren sollen.

Und dieser Prozess stellt die Haupteigenschaft von DWHs dar - dass sie nur verarbeitete Daten speichern. Sie können zum Beispiel den Output von ETL-Workflows speichern. Folglich können die Daten in Data Warehouses analysiert werden, um eine präzise datengesteuerte Entscheidungsfindung (DDDM) zu ermöglichen.

Manchmal müssen Sie jedoch auch Rohdaten speichern - und einige Operationen mit ihnen durchführen. Und das ist der Punkt, an dem Data Lakes glänzen können.

Was ist ein Data Lake?

Im Vergleich zu DWHs sind Data Lakes relativ neu. Der Begriff selbst stammt aus dem Jahr 2010. Bei ihrer Einführung erhielten sie eher gemischte Kritiken. In einem Forbes-Artikel wurden sie sogar als böse bezeichnet. Im Jahr 2021 ist ihre Wahrnehmung jedoch eine andere. Nach Angaben von Business Wire wurde der Markt für Data Lakes im Jahr 2020 auf 3,74 Milliarden USD geschätzt. Und bis 2026 wird er voraussichtlich 17,60 Milliarden USD erreichen.

Wie wir bereits in unserem vorherigen Artikel in der Datenserie erwähnt haben, wurden Data Lakes als Lösung für wiederkehrende Einschränkungen bei der Datenspeicherung eingeführt. Das neue Konzept zielte darauf ab, die Daten aus mehreren Geschäftsanwendungen und Datensystemen an einem Ort in Rohform zusammenzuführen, um sie später zu strukturieren und zu verarbeiten (was für den Betrieb von Datenpipelines nützlich ist). Mit Data Lakes wurden die Träume von der schnellen Zusammenführung strukturierter und unstrukturierter Daten in einem einzigen Repository Shop für Geschäftseinblicke Wirklichkeit.

Und während die gängigen DWHs Unternehmen in enge Datenparadigmen und -silos zwingen, bieten Data Lakes eine umfassendere und ganzheitlichere Sicht auf die Analytik. Data Lakes sind entstanden, um den Bedarf an einem skalierbaren, kostengünstigen Datenspeicher zu decken, der es Unternehmen ermöglicht, alle Datentypen unabhängig von ihrer Quelle einfach zu speichern und diese Daten dann für eine evidenzbasierte Entscheidungsfindung zu analysieren.

Unterschied zwischen Data Lake und Data Warehouse

Wie Sie inzwischen wissen, besteht der erste große Unterschied zwischen diesen beiden Datenspeichern in der Art der Daten, die sie speichern. Data Warehouses speichern nur historische, strukturierte Daten, die an ein relationales Datenbankschema angepasst sind. Data Lakes hingegen sind nicht so wählerisch und akzeptieren fast alles, ob strukturiert oder nicht. Das geht so weit, dass wir Data Lakes schon einmal mit schwarzen Löchern verglichen haben (allerdings birgt der Leichtsinn bei der Datenspeicherung auch die Gefahr, dass sich Ihr Data Lake in einen Datensumpf verwandelt, seien Sie also vorsichtig).

Das Ziel von Data Warehouses besteht nun darin, Informationen in einem Nur-Lese-Modus für Analysten bereitzustellen. Da die Daten in DWHs bereits verarbeitet, bereinigt und strukturiert sind, besteht (meistens) keine Notwendigkeit, sie zu aktualisieren. Im Gegensatz dazu können Data Lakes alle eingehenden Daten speichern, was sie in einigen Fällen besser für Big Data-Analysen geeignet macht. Wie DataCamp sagt, gilt dies insbesondere für Deep Learning, da es Skalierbarkeit bei der wachsenden Menge an Trainingsdaten erfordert. Es gibt auch spezielle Tools für die Big Data-Analyse in Data Lakes - zum Beispiel Apache Spark.

Natürlich sind Data Lakes viel "größer" als Data Warehouses, da letztere auf strukturierte, verarbeitete Daten beschränkt sind, die für bestimmte Analysezwecke "handverlesen" wurden. Um Ihnen eine Perspektive zu geben - Data Lakes speichern oft Tausende von... Terabytes (!) an Daten.

Es liegt auf der Hand, dass Data Lakes automatisch kosteneffizienter für die Speicherung sind, während DWHs der ideale Ort für die Entscheidungsfindung mit einer klaren Idee dahinter sind.

Data Lakes und Data Warehouses sind miteinander verflochten

Schließlich ist es wichtig, daran zu denken, dass DWHs und Data Lakes keine Konkurrenten sind. Oft können sie Teil derselben Datenpipeline sein. Sie treten jedoch in unterschiedlichen Phasen des Prozesses auf den Plan. Data Lakes können von Anfang an dabei sein, sobald unverarbeitete Daten einfließen. Sie dienen als Speicher für ETL-Workflows und enthalten die Daten, bis sie verarbeitet und strukturiert sind. Zu diesem Zeitpunkt können die Informationen im Rahmen der Datenzugriffsphase in ein Data Warehouse eingespeist werden.

Contact

Let’s discuss how we can support your journey.