Blog

Data Lakehouse Erklärt: Die Architektur, die moderne Daten- und KI-Plattformen antreibt

Marek Wiewiórka

Aktualisiert März 17, 2026

7 Minuten

In der sich entwickelnden Landschaft der Datendomäne hat sich ein neues Paradigma herausgebildet, das die bekannte Lücke zwischen der strukturierten, zuverlässigen Umgebung des Data Warehouse und der flexiblen, skalierbaren Speicherung des Data Lake schließen soll. Diese Architektur ist als Data Lakehouse bekannt. Aber was genau ist das und warum wird es zur bevorzugten Architektur für moderne Datenplattformen?

In diesem Blogbeitrag werden wir seine Ursprünge, Kernprinzipien und seine transformative Wirkung untersuchen. Dieser Beitrag wurde durch das Webinar "Data Lakehouse (DL) - Is it the Holy Grail We Have Been Looking For?" inspiriert, dem ersten einer Reihe von Webinaren ("Towards Data Lakehouse Architecture") zu diesem Thema. Weitere Informationen dazu finden Sie hier.

Die Brücke zwischen zwei Welten

Der Begriff wurde erstmals 2017 in Jeremy Engles Folien vom Redshift/Big Data Meetup geprägt, auch wenn es sich dabei nicht um ein formal definiertes Konzept handelte. Ursprünglich war es eher eine aufstrebende Idee als eine tatsächliche Architektur. In diesem Szenario könnten Unternehmen verschiedene Datentypen effizient verarbeiten, ohne separate Systeme zu unterhalten. Im Kern ging es darum, die besten Eigenschaften von Data Warehouses mit der Skalierbarkeit und Flexibilität von Data Lakes zu kombinieren, die sich durch die Speicherung großer Mengen unstrukturierter Daten auszeichnen.

Diese Vision wurde schließlich 2021 in einem Forschungspapier mit dem Titel "Lakehouse" formalisiert : A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics" (Eine neue Generation offener Plattformen, die Data Warehousing und fortgeschrittene Analysen vereinen), das von Forschern der UC Berkeley und Ingenieuren von Databricks gemeinsam verfasst wurde. Das Manuskript enthielt eine Reihe klarer Anforderungen an ein Lakehouse und markierte den entscheidenden Wechsel von einem vagen Konzept zu einem konkreten Architekturentwurf.

Die drei wichtigsten Bausteine

Eine Data Lakehouse-Architektur basiert auf drei grundlegenden Schichten, die sich jeweils aus ihren Vorgängern weiterentwickeln, um ein integriertes und offenes System zu schaffen.

Die Speicherschicht: offen, einheitlich und transaktional

Die Basis von Lakehouse ist ein kostengünstiger, skalierbarer Cloud-Objektspeicher, der von Cloud-Anbietern wie AWS, Google oder Microsoft bereitgestellt wird. Darüber hinaus wird eine offene Tabellenformatebene eingeführt , wie z.B. Apache Iceberg, Delta Lake oder Apache Hudi. Diese Formate fügen wichtige Data-Warehousing-Funktionen direkt in den dateibasierten Speicher ein:

ACID-Konformität: Gewährleistet zuverlässige Transaktionen, Konsistenz und Datenintegrität durch Isolierung der Daten.

Zeitreise und Versionierung: Ermöglicht die Abfrage von Daten zu historischen Zeitpunkten.

Schema-Erzwingung und -Entwicklung: Unterstützt sowohl Schema-on-write als auch Schema-on-read Ansätze.

Diese Kombination bedeutet, dass die Daten in offenen, standardisierten Dateiformaten (wie Parquet oder ORC) gespeichert werden, aber mit einer Governance und Zuverlässigkeit verwaltet werden, die früher nur proprietären Data Warehouses vorbehalten war.

Erfahren Sie mehr über das Webinar von Xebia, das auch eine Live-Demo enthält.

Die Datenverarbeitungsschicht: Flexibel und entkoppelt

In einem Lakehouse sind die Rechenressourcen vollständig vom Speicher entkoppelt. Das bedeutet, dass Sie Ihre Verarbeitungsleistung je nach Bedarf skalieren können, ohne Ihre Daten zu verschieben. Eine Vielzahl von Verarbeitungsmodulen kann gleichzeitig mit denselben Daten arbeiten:

Traditionelle verteilte Engines: Apache Spark, Apache Flink, Trino (früher PrestoSQL).

Aufstrebende Single-Node-Engines: DuckDB, Polars und Daft, die die Out-of-Core-Verarbeitung nutzen, um große Arbeitslasten zu bewältigen und eine beeindruckende Leistung für Datensätze zu bieten, die auf einen einzigen Rechner passen, und den Overhead für mittelgroße Arbeitslasten zu reduzieren. Diese Engines bieten jetzt eine ausgereifte Iceberg-Unterstützung - DuckDB fügte 2025 vollständige Lese-/Schreibfunktionen hinzu, Polars integriert sich über PyIceberg und Daft unterstützt Unity Catalog. Auch wenn die Integrationstiefe variiert, sind sie für Workloads im See-Haus-Bereich zunehmend geeignet.

Optimierte und spezialisierte Engines: Es gibt Projekte, die Bausteine wie Abfrageoptimierer und Ausführungsengines bereitstellen. Mit Apache DataFusion oder Apache Arrow können Sie Ihre eigene domänenspezifische Abfrage-Engine erstellen oder auch Ihre eigene bestehende Engine in das Daten-Ökosystem einbinden.

Die Kraft des Streaming: Die kürzlich vorgestellte Streamhouse-Architektur kombiniert Apache Flink für die Stream-Verarbeitung mit Apache Paimon als Streaming-Speicherschicht. Dieser Ansatz ermöglicht Echtzeit-Analysen mit Hochgeschwindigkeitsdatenaufnahme, Änderungsdatenerfassung (CDC) und nahtlosen Datenkatalogintegrationen. Für die analytische Abfrageschicht ist StarRocks eine Lösung, die Sie in Betracht ziehen sollten.

Diese Flexibilität ermöglicht es Unternehmen, das Tool an die jeweilige Aufgabe anzupassen und dabei sowohl Kosten als auch Leistung zu optimieren, und sogar eine Mischung aus Open-Source- und kommerziellen Tools zu wählen. Große Unternehmen wie Meta investieren ebenfalls, da Sie die Kosten für Ihre Infrastruktur wirklich senken können, wenn Sie Ihre Abfragen skalieren.

Erfahren Sie mehr in dem Webinar aus der Reihe Towards Data Lakehouse Architecture über die Rechenschicht.

Die Metadaten-Ebene: Das Gehirn des Seehauses

Die vielleicht bedeutendste Entwicklung liegt in der Metadaten- und Katalogschicht. In den ersten Data Lakes wurden Metadaten oft erst nachträglich hinzugefügt, was zu Problemen bei der Datenerkennung, der Verwaltung und der Abstammung führte. Ohne einen einheitlichen Datenkatalog blieben Funktionen wie zentrale Zugriffskontrolle, Schemamanagement und Interoperabilität zwischen verschiedenen Systemen unerreichbar. Dies änderte sich Mitte 2024 mit dem Open-Sourcing wichtiger Katalogtechnologien - insbesondere dem Unity Catalog von Databricks und der Übernahme der Iceberg REST Catalog-Spezifikation.

Dies änderte sich Mitte 2024 mit dem Open-Sourcing wichtiger Katalogtechnologien - insbesondere dem Unity Catalog von Databricks und der Übernahme der Iceberg REST Catalog-Spezifikation - erheblich. Diese Entwicklungen ermöglichten einen ausgefeilten, zentralisierten Datenkatalog, der als System of Record für alle Datenbestände dient. Tools von Drittanbietern und benutzerdefinierte Engines können nun über offene APIs sicher mit verwalteten Daten interagieren, wodurch die Herstellerbindung aufgehoben und wirklich kompatible Architekturen ermöglicht werden. Unabhängig vom verwendeten Client können die Daten immer effizient gelesen und geschrieben werden.

Sehen Sie sich unser Webinar an: Clash of The Data Catalogs - Market Leaders vs. Challengers, in dem wir neue Open-Source-Projekte vorstellen, die an Dynamik gewinnen.

Die wichtigsten Vorteile des Seehauses

Als Datenmanagementsystem, das auf einem kostengünstigen und direkt zugänglichen Speicher basiert, bieten Lakehouses auch traditionelle analytische DBMS-Verwaltungs- und Leistungsfunktionen wie ACID-Transaktionen, Datenversionierung, Auditing, Caching und Abfrageoptimierung. Sie vereinen die wichtigsten Vorteile von Data Lakes und Data Warehouses: kostengünstiger Speicher in einem offenen Format, auf den eine Vielzahl von Systemen zugreifen kann, und leistungsstarke Verwaltungs- und Optimierungsfunktionen, wie sie in Data Lakes enthalten sind.

Hier sind die wichtigsten Vorteile eines Data Lakehouse:

Vereinheitlichung und Einfachheit: Eine einzige Plattform ersetzt separate Data Lakes und Data Warehouses. Sie ermöglicht allen Datennutzern, von Analysten bis hin zu Datenwissenschaftlern, eine Reduzierung der Komplexität und der Datensilos.

Maßgeschneidert auf Ihre Bedürfnisse: Das Data Lakehouse wird auf der Grundlage Ihrer Datenanforderungen erstellt, bleibt aber gleichzeitig erweiterbar und fügt sich auf natürliche Weise in Ihre bestehende Umgebung und Arbeitsabläufe ein.

Kosteneffizienz und Leistung: Die Entkopplung von Speicher und Datenverarbeitung ermöglicht eine unabhängige, elastische Skalierung. Die Verwendung offener Formate und optimierter Engines senkt die Kosten drastisch und erhöht die Abfragegeschwindigkeit.

Offenheit und Flexibilität: Lakehouse basiert auf offenen Standards und vermeidet die Bindung an einen bestimmten Anbieter. Sie können Komponenten für Speicher, Rechenleistung und Metadaten frei wählen und kombinieren, um eine maßgeschneiderte, kompatible Architektur zu schaffen.

Erweiterte Unterstützung für Anwendungsfälle: Native Unterstützung für ein breites Spektrum moderner Arbeitslasten über BI hinaus, einschließlich maschinelles Lernen, Echtzeit-Streaming-Analysen und KI, alles unter einem zentralisierten Governance- und Sicherheitsmodell.

Ist ein Data Lakehouse das Richtige für Sie?

Das Lakehouse ist keine Einheitslösung, aber seine Anwendbarkeit kann breit gefächert sein.

Ziehen Sie es in Betracht, wenn:

Ihre Datenlandschaft umfasst eine Mischung aus strukturierten und unstrukturierten Daten.

Sie müssen verschiedene Workloads unterstützen: BI, erweiterte Analysen, ML und Echtzeit-Streaming.

Kostenkontrolle und das Vermeiden der Bindung an einen bestimmten Anbieter sind die wichtigsten Prioritäten.

Sie sind über die Beschränkungen eines traditionellen Warehouse hinausgewachsen, benötigen aber mehr Governance als ein roher Data Lake bietet.

Für sehr kleine, einfache BI-Nutzungsfälle mag ein traditionelles Warehouse ausreichen. Aber für Unternehmen mit wachsenden Datenmengen, zunehmender Komplexität und dem Bedürfnis nach Flexibilität stellt das Data Lakehouse eine überzeugende, zukunftssichere Architektur dar, die an die Bedürfnisse Ihres Unternehmens angepasst werden kann.

Ist Open Data Lakehouse der moderne Heilige Gral?

Das Data Lakehouse hat sich von einer vielversprechenden Idee zu einem robusten, produktionsreifen Architekturmuster entwickelt. Der jüngste Vorstoß in Richtung Offenheit - angeführt von Open-Source-Katalogen und -Standards - hat es zu einer wirklich flexiblen und leistungsstarken Plattform gemacht. Es vereint erfolgreich die Skalierbarkeit und Flexibilität von Data Lakes mit der Zuverlässigkeit und Leistung von Data Warehouses und steht gleichzeitig für Kosteneffizienz und Offenheit.

Im Wesentlichen stellt das Data Lakehouse die Konvergenz zwischen verschiedenen Welten dar: eine einzige, offene Plattform, die getrost als Grundlage für die gesamte Daten- und KI-Strategie eines Unternehmens dienen kann. Es handelt sich nicht nur um eine schrittweise Verbesserung, sondern um einen grundlegenden Wandel hin zu einer integrierten, effizienten und innovativen Datenzukunft.

Tags: