Blog
Marktführer gegen Herausforderer: der andauernde Kampf um Datenkataloge in Data Lakehouse

In der sich schnell entwickelnden Welt der Data Lakehouse-Architektur hat sich der Datenkatalog zum zentralen Nervensystem entwickelt. Eine entscheidende Schicht, die Daten in hybriden Umgebungen verwaltet, navigiert und sichert. Bei diesem Wettbewerb geht es nicht nur um Funktionen, sondern um Kontrolle, Offenheit und die Zukunft der Datenarchitektur selbst.
Ein neues Webinar von Xebia taucht tief in diese Landschaft ein und enthüllt einen faszinierenden Kampf zwischen etablierten Marktführern und einer neuen Welle vielversprechender Open-Source-Herausforderer. Dieses Webinar ist Teil einer Reihe von Webinaren, die sich mit der Data Lakehouse-Architektur befassen und die Grundlagen und die Zukunft der Big Data-Speicherung erforschen und zeigen, wie diese die Datenarchitektur beeinflusst.
Erfahren Sie mehr darüber, wie das Data Lakehouse funktioniert, indem Sie sich unsere On-Demand-Webinare ansehen: Auf dem Weg zur Data Lakehouse Architektur.
In diesem Blog-Beitrag schlüsseln wir das Konzept eines Datenkatalogs auf, beleuchten aufkommende Open-Source-Projekte, die an Dynamik gewinnen, und untersuchen, ob sie als Rückgrat einer modernen Datenplattform dienen können.
Datenkataloge. Die Titanen: Eigenständig, integriert und leistungsfähig
An vorderster Front stehen die gut finanzierten, integrierten Angebote der Cloud- und Plattformriesen. Databricks Unity Catalog ist eine Referenzimplementierung: ein umfassender, funktionsreicher Katalog, der tief in das Databricks-Ökosystem eingebettet ist. Er unterstützt Delta Lake nativ und bietet seit kurzem auch verwaltete Iceberg-Unterstützung. Mit Funktionen wie automatischer Abstammung, fein abgestufter Zugriffskontrolle, Auditing und seiner innovativen "Uniform"-Schicht (die die Abfrage von Delta-Tabellen über die Iceberg REST API ermöglicht) setzt Unity hohe Maßstäbe für technische und Governance-Funktionen.
In ähnlicher Weise bieten Snowflake Horizon (für interne Governance) und sein Open Catalog (eine verwaltete Version von Apache Polaris) einen dualen Ansatz, der sowohl eine enge Plattformintegration als auch offene Konnektivität ermöglicht. Die großen Cloud-Anbieter wie AWS mit Glue Data Catalog & Lake Formation, Google mit BigLake Metastore (das jetzt GA-Unterstützung für den Iceberg REST Catalog bietet) und Microsoft mit Fabric OneLake Catalog bieten jeweils robuste, verwaltete Katalogdienste an, die eng mit ihren jeweiligen Ökosystemen verbunden sind. Diese sind "open by design" in dem Sinne, dass sie offene Tabellenformate (Iceberg, Delta, Hudi) und zunehmend auch offene Standards unterstützen, aber sie sind im Grunde genommen proprietäre Dienste, die die Plattformbindung fördern sollen.
Datenkataloge. Die Herausforderer: Open-Source, Modular und Agil
An der Open-Source-Grenze findet die dynamischste Innovation statt. Diese Herausforderer versuchen nicht, allumfassende Plattformen zu sein. Stattdessen konzentrieren sie sich darauf, die beste interoperable Katalogschicht für einen offenen Datenstapel zu sein.
An der Spitze steht Apache Gravitino, das im Juni 2025 zum Apache Top-Level Project ernannt wurde. Es ist ein Projekt mit vielen Funktionen, das Tabellen, ML-Modelle, Kafka-Themen und mehr unterstützt. Es bietet die Möglichkeit, Berechtigungsnachweise zu verkaufen, Zugriffskontrollen vorzunehmen und die Unterstützung von Lineage und MCP (Model Context Protocol) zu entwickeln. Die Einführung wird jedoch durch eine unvollständige und verwirrende Dokumentation erschwert, was die Implementierung zu einem leistungsstarken, aber schwierigen Tool macht.
Lakekeeper verfolgt einen anderen, minimalistischen Ansatz. Es ist in Rust geschrieben, leichtgewichtig und konzentriert sich ausschließlich darauf, ein leistungsstarker Iceberg-Katalog mit Zugriffskontrolle und Berechtigungsnachweis zu sein. Es wird mit einer ausgezeichneten Dokumentation und einer funktionierenden Docker-Spielwiese geliefert, wodurch es unglaublich einfach zu evaluieren und einzusetzen ist. Seine Einfachheit ist seine Stärke, auch wenn ihm die umfassendere Unterstützung von Gravitino für Entitäten fehlt.
Weitere bemerkenswerte Konkurrenten sind die Open-Source-Version von Unity Catalog (ein separates Projekt, das sich langsamer entwickelt als sein von Databricks verwalteter Namensvetter) und Apache Polaris (jetzt in Apache Incubation, der Open-Source-Grundlage des Open Catalog-Angebots von Snowflake). DataHub ist ebenfalls erwähnenswert. Der traditionell geschäftsorientierte Metadatenkatalog unterstützt seit Version 1.0 auch den Iceberg REST Catalog und verwischt damit die Grenzen zwischen geschäftlichen und technischen Katalogen.
Die große Kluft: Technische und geschäftliche Datenkataloge
Auf dem Markt gibt es eine klare Segmentierung zwischen verschiedenen organisatorischen Anforderungen. Technische/operative Kataloge (wie Lakekeeper, Gravitino, Polaris) konzentrieren sich auf die Mechanismen des Datenzugriffs: Sicherheit (RBAC, ABAC), Verkauf von Berechtigungsnachweisen, Tabellenpflege und Multi-Engine-Unterstützung. Geschäftliche Kataloge (wie DataHub, OpenMetadata) legen den Schwerpunkt auf Datenermittlung, Abstammung, Datenqualität und Datenverträge für Datengitterarchitekturen.
Die Marktführer versuchen zunehmend, beides zu vereinen, während in der Open-Source-Welt oft ein technischer Katalog (z.B. Lake Keeper) mit einem geschäftlichen Katalog (z.B. DataHub) zu einer Komplettlösung kombiniert wird.
Bewertung: Stärken und eklatante Lücken
Wenn Sie die Herausforderer mit Marktführern wie Unity Catalog vergleichen, zeigt sich ein klares Muster. Die Open-Source-Anwärter zeichnen sich durch die Grundlagen aus: Iceberg REST API-Unterstützung, zentrale Zugriffskontrolle und Verkauf von Zugangsdaten. Sie sind modular aufgebaut, vermeiden die Bindung an einen bestimmten Anbieter und entwickeln sich durch den Input der Community schnell weiter.
Allerdings fehlt es ihnen durchweg an unternehmenstauglichen Produktionsfunktionen. Wichtige Funktionen wie detaillierte Zugriffsprüfungen, automatische Benutzer-/Gruppensynchronisierung über CIAM (Customer Identity and Access Management), Konfiguration als Code, integrierte Tabellenpflege (Verdichtung, Leerung) und robuste Mechanismen für die gemeinsame Nutzung von Daten sind oft nicht vorhanden, unvollständig oder erfordern eine umfangreiche kundenspezifische Entwicklung. Hochverfügbarkeit und betriebliche Reife sind ebenfalls ein Problem, das der Implementierer zu lösen hat.
Das Fazit: Die Zukunft sieht hybrid aus
Der Kampf ist kein einfaches Nullsummenspiel; stattdessen geht es in der Zukunft darum, sowohl hybrid als auch pragmatisch zu sein.
- Für Unternehmen, die auf eine Plattform wie Databricks oder Snowflake setzen, ist die Nutzung ihres nativen Katalogs die leistungsfähigste und nahtloseste Wahl. Die zunehmende Unterstützung offener Standards (Iceberg API, Open Lineage) mildert die Befürchtungen, dass Sie sich an eine bestimmte Plattform binden.
- Für Teams, die ein offenes Multi-Cloud-Lakehouse aufbauen, sind die Open-Source-Herausforderer (insbesondere Apache Gravitino und Lakekeeper) trotz ihrer Ecken und Kanten überzeugend. Sie bieten Freiheit und Flexibilität, erfordern aber eine höhere betriebliche Investition und die Bereitschaft, Komponenten zu integrieren und fehlende Funktionen zu entwickeln.
- Das Ethos "Open by Design" scheint die erfolgreiche Strategie zu sein. Sogar die Marktführer im proprietären Bereich sind gezwungen, offene Tabellenformate und APIs zu verwenden. Wahre Offenheit bleibt jedoch eine Kombination aus Open-Source-Lizenzierung und der Einhaltung offener Standards.
Letztendlich hängt die Entscheidung zwischen Marktführern und Herausforderern von einem wesentlichen Kompromiss ab: Out-of-the-Box-Raffinesse und Unterstützung gegenüber architektonischer Freiheit und Kontrolle. Da die Open-Source-Projekte reifen und die Giganten auf dem besten Weg sind, sich die Offenheit zu eigen zu machen, werden sich die Grenzen weiter verwischen und Innovationen vorantreiben, von denen alle profitieren, indem sie die nächste Generation von Datenarchitekturen aufbauen.
Der Wettbewerb wird immer härter, und die wahren Gewinner werden die Dateningenieure und -architekten sein, die jetzt über leistungsfähigere und flexiblere Werkzeuge verfügen als je zuvor. Erfahren Sie mehr über das Open Data Lakehouse-Konzept, und bleiben Sie dran für den nächsten Blogbeitrag über Datenkataloge.
Sehen Sie sich unser Webinar über Datenkataloge an: Kampf der Datenkataloge - Marktführer vs. Herausforderer.
Verfasst von
Marek Wiewiórka
Unsere Ideen
Weitere Blogs
Contact



