Blog
Vom Parkett zum Eisberg: Wie der Lakehouse Storage Layer moderne Datenplattformen antreibt

Wenn wir über den Wechsel von traditionellen Data Warehouses zu modernen Data Lakehouses nachdenken, spielt die Speicherebene oft die Hauptrolle. Hier werden Rohdaten zu einem strategischen Vermögenswert: strukturiert, optimiert und einsatzbereit. In einem kürzlich abgehaltenen Seminar haben wir die Schlüsseltechnologien und -strategien untersucht , die den heutigen Lakehouse-Speicher schnell, flexibel und offen machen. Das Webinar befasste sich mit den Grundlagen und der Zukunft der Big Data-Speicherung und wie diese die Datenarchitektur prägt.
Sehen Sie sich das On-Demand-Webinar an: Data Lakehouse Storage Layer - Offenheit, Interoperabilität und Leistung.
Und wenn Sie sich zunächst mit dem allgemeinen Konzept von Data Lakehouse beschäftigen möchten, lesen Sie den ersten Blog aus dieser Serie: Data Lakehouse Erklärt: Die Architektur, die moderne Daten- und KI-Plattformen antreibt.
Es geht um die Dateiformate
Die Grundlage eines jeden Datensystems ist das Dateiformat. Wenn Sie bereits mit CSV- oder JSON-Dateien gearbeitet haben, sind Sie mit der einfachen, zeilenorientierten Speicherung vertraut. Bei großen Datenmengen können diese jedoch schnell langsam und ineffizient werden. An dieser Stelle kommen spaltenorientierte Formate wie Apache Parquet ins Spiel. Anstatt die Daten zeilenweise zu speichern, werden sie bei Parquet spaltenweise organisiert. Das heißt, wenn Ihre Abfrage nur ein paar Spalten benötigt, z.B. "durchschnittlicher Umsatz pro Region", lädt das System diese und überspringt alles andere, was die Leistung dramatisch steigert.
Aber es geht nicht nur um Geschwindigkeit. Formate wie Parquet und Avro sind jeweils für bestimmte Anwendungsfälle konzipiert. Parquet eignet sich hervorragend für analytische Arbeitslasten, während Avro auf Streaming- und nachrichtenbasierte Systeme zugeschnitten ist, die beispielsweise Apache Kafka verwenden. Dann gibt es noch Lance, ein neueres Format, das für KI und maschinelles Lernen optimiert ist. Es bietet integrierte Unterstützung für Bilder, Audio- und Vektordaten und ist damit perfekt für die Ära der generativen KI und semantischen Suche.
Die Magie der Metadaten und offenen Tabellenformate
Rohdateien allein sind nicht genug für eine produktionsreife Datenplattform. Traditionelle Data Warehouses boten Funktionen wie ACID-Konformität (zur Gewährleistung zuverlässiger Transaktionen) und einfache Metadatenverwaltung, die bei der Umstellung auf einfache Dateispeicherung verloren gingen. Diese Lücke führte zum Aufkommen von offenen Tabellenformaten wie Delta Lake, Apache Hudi und Apache Iceberg.
Betrachten Sie diese als eine "Verwaltungsschicht" über Ihren Dateien. Sie fügen ein Transaktionsprotokoll hinzu - eine Aufzeichnung von Änderungen, Dateispeicherorten und Tabellenstatistiken - ohne Sie an einen Anbieter zu binden. Dies bringt ein paar wesentliche Funktionen zurück:
- Zeitreise: Fragen Sie Daten ab, wie sie zu einem vergangenen Zeitpunkt aussahen.
- ACID-Garantien: Zuverlässige Schreibvorgänge und Konsistenz, auch bei mehreren Benutzern.
- Effizienter Zugriff auf Metadaten: Sie müssen nicht Tausende von Dateien durchsuchen, um die Struktur einer Tabelle zu verstehen.
Diese Formate bewahren Daten in offenen Dateitypen wie Parquet auf und sorgen dafür, dass Sie nie in einem proprietären System gefangen sind. Sie sind ein wichtiger Schritt in Richtung echter Interoperabilität in der Datenwelt.
Feinabstimmung für die beste Leistung
Die Wahl des richtigen Formats ist nur der Anfang. Um das Beste aus einem Seehaus herauszuholen, müssen Sie Ihre Daten auf intelligente Weise organisieren. Hier sind drei wichtige Techniken:
- Aufteilung:
Stellen Sie sich das so vor, als würden Sie ein Bücherregal nach Genre ordnen. Durch die Aufteilung von Daten in Ordner auf der Grundlage von Spalten wie Datum oder Land können Abfragen irrelevante Abschnitte überspringen. Aber seien Sie vorsichtig - eine zu starke Partitionierung kann zu viele kleine Dateien erzeugen, was die Leistung beeinträchtigt.
- Z-Ordering:
Eine intelligentere Art, Daten in Dateien zu organisieren. Anstatt nur nach einer Spalte zu gruppieren, ordnet Z-Ordering die Daten so an, dass zusammengehörige Werte über mehrere Spalten hinweg nahe beieinander liegen. Dies verbessert die Effizienz der Filterung, insbesondere bei mehrspaltigen Abfragen.
- Liquid Clustering (in Delta Lake):
Eine fortschrittliche Methode, die ein inkrementelles Clustering verwendet - im Gegensatz zum Z-Ordering, das ein vollständiges Neuschreiben der Daten erfordert - und die Anzahl und Größe der Dateien für eine optimale Leistung automatisch ausgleicht. Die Daten werden dynamisch reorganisiert, um sie für reale Speicher- und Zugriffsmuster zu optimieren, was zu einer ausgewogeneren Leistung führt.
- Löschvektoren: Sie markieren Zeilen als gelöscht, ohne die Dateien sofort neu zu schreiben, was die Aktualisierungseffizienz verbessert.
Das Seminar machte deutlich, dass es keine Einheitslösung gibt. Der beste Ansatz hängt ganz von Ihren Daten, Abfragemustern und Ihrer Arbeitsbelastung ab.
Auswirkungen in der realen Welt: Demo-Rekapitulation
Um diese Konzepte zu veranschaulichen, haben wir eine Live-Demo mit Daten von Taxifahrten in New York City durchgeführt. Wir haben verglichen:
- Unsortierte Daten (Baseline)
- Sortierte Daten
- Z-geordnete Daten
Die Ergebnisse für die verschiedenen Datei- und Zeilengruppengrößen waren aufschlussreich. Die Z-Sortierung verbesserte zwar die Leistung, aber in einigen Fällen war die einfache Sortierung mit optimierter Dateigröße sogar noch besser. Die wichtigste Erkenntnis? Tests sind unerlässlich. Kleine Anpassungen, wie z.B. die Verringerung der Größe von Parquet-Zeilengruppen von 128 MB auf 4 MB, können die Abfragezeiten drastisch verkürzen und die Anzahl der gescannten Daten reduzieren, indem Datensätze eliminiert werden, die nicht den Prädikaten entsprechen.
Blick in die Zukunft: Offenheit und Interoperabilität
Einer der spannendsten Trends ist der Vorstoß in Richtung Interoperabilität zwischen Tabellenformaten. Projekte wie Delta Lake UniForm und Apache X-Table zielen darauf ab, dass Sie Daten in einem Format (wie Delta Lake) schreiben und in einem anderen (wie Iceberg) lesen können. Dies verringert die Abhängigkeit und kann die Arbeit in einem stärker vernetzten Datenökosystem erleichtern.
Die Speicherebene ist heute ein aktiver, intelligenter Teil des Datenstapels, sie ist nicht länger eine passive Ebene. Durch den Einsatz offener Formate, intelligenter Metadaten und durchdachter Optimierung können Unternehmen Systeme aufbauen, die nicht nur leistungsstark und skalierbar, sondern auch flexibel und zukunftssicher sind.
Ganz gleich, ob Sie gerade erst mit Ihrer Lakehouse-Reise beginnen oder eine bestehende Plattform optimieren, die Botschaft ist klar: Investitionen in Ihre Speicherebene zahlen sich aus. Hier werden Daten in Erkenntnisse umgewandelt, und Offenheit ebnet den Weg für Innovationen.
Erfahren Sie mehr über das Open Data Lakehouse-Konzept, und bleiben Sie dran für den nächsten Blogbeitrag über Datenkataloge.
Verfasst von
Marek Wiewiórka
Unsere Ideen
Weitere Blogs

KI-Revolution bei der Datenextraktion: Strukturierung von E-Mails, PDFs und...
Lassen Sie uns einige der realen Anwendungsfälle erkunden, die sich aus diesem Gespräch ergeben und die zeigen, wie generative KI das Mögliche neu...
Klaudia Wachnio
Contact


