Blog
Fragen, die wir immer wieder hören: Warum kann ich nicht einfach Rohdaten abfragen?

Lassen Sie uns eines klarstellen: Wir, die Analytikingenieure, lieben unsere Arbeit und die Lösung von Problemen mit Kunden, aber einige Fragen, die wir tagtäglich hören, sind einfach nur anstrengend. Damit wir nicht fünfmal am Tag das Gleiche beantworten müssen, haben wir hier eine praktische Blogserie, die diese Fragen gründlich beantwortet und auf die wir stattdessen zurückgreifen können.
Bo Lemmers, Analytics Engineer hier bei Xebia, und Mike Kamysz, Data Engineer beim Das Dateninstitut eröffnen die Serie mit: "Warum kann ich nicht einfach die Rohdaten abfragen?" Oh, liebes Sommerkind. Wir verstehen es - Sie sind gespannt, neugierig und wollen Ihre Antworten jetzt. Aber sich kopfüber in Rohdaten zu stürzen, ohne einen Plan zu haben, ist wie der Versuch, mit verbundenen Augen im Schneesturm eine Nadel im Heuhaufen zu finden. Lassen Sie uns also darüber sprechen, warum dies eine schlechte Idee ist und warum wir glänzende, strukturierte Datenmodelle haben, die uns vor dem Chaos bewahren.
Der Reiz der Abfrage von Rohdaten: Was die Leute richtig machen
Bevor wir uns mit dem großen Tabu der Abfrage von Rohdaten, lassen Sie uns fair sein. Wir verstehen, warum die Leute diese Frage stellen. Es scheint wie eine gute Idee. Sie sitzen auf einer Goldmine von Daten - warum sollten Sie nicht direkt darauf zugreifen, und zwar in ihrer ursprünglichsten Form? Hier ist der Grund für diese Anfrage:
- Granularität: Rohdaten sind die detaillierteste Version Ihres Datensatzes und erfassen jedes Ereignis, jede Transaktion und jede Interaktion in ihrer reinsten Form. Wenn Sie einen vollständigen, ungefilterten Blick auf die Daten haben möchten - egal ob es sich um Transaktionsdaten, Benutzerklicks oder Sensorprotokolle handelt - sind Rohdaten die ultimative Quelle für Details.
- Flexibilität: Es gibt keine gefühlte Form, die Sie einschränkt. Wenn Sie Rohdaten abfragen, ist es, als hätten Sie eine leere Leinwand. Sie können Ihre eigenen Metriken, Dimensionen und Transformationen im Handumdrehen erstellen. Keine vordefinierte Logik oder Geschäftsregeln, die Ihnen in die Quere kommen - nur Sie, die Daten und Ihr SQL-Editor.
- Schnell zur Einsicht: Wenn Sie eine brennende Frage haben, kann es sich wie eine Ewigkeit anfühlen, darauf zu warten, dass das Datenteam eine neue Spalte oder Tabelle in das Warehouse einfügt. Warum nicht den Mittelsmann ausschalten? Die Abfrage von Rohdaten erweckt den Eindruck, dass Sie sofort zu Erkenntnissen gelangen.
Die verborgenen Schattenseiten der Abfrage von Rohdaten
Lassen Sie uns nun darüber sprechen, warum die Abfrage von Rohdaten nicht alles ist, was sie zu sein verspricht. Oberflächlich betrachtet scheint es eine Erleichterung zu sein, aber hinter den Kulissen verursacht es jede Menge Kopfschmerzen - Kopfschmerzen, mit denen Ihre freundlichen Analysetechniker (wir!) fertig werden müssen. Hier ist der Grund dafür:
Datenqualität: Garbage In, Garbage Out
Rohdaten sind unbearbeitet. Sie sind genau das, wonach sie klingen - roh, ungekocht, unbearbeitet, voller Rauschen, Fehler und fehlender Werte. Bevor eine ernsthafte Analyse durchgeführt werden kann, müssen Rohdaten in der Regel eine Datenanalyse durchlaufen. Reinigungs- und Verarbeitungsprozesse. Das ist die Realität:
- Inkonsistente Formate: Datumsangaben in verschiedenen Formaten, unterschiedliche Einheiten (z.B. Pfund vs. Kilogramm) und inkonsistente Kategorisierungen (z.B. "NL" vs. "Niederlande" oder "NL" vs. "nl") sind nur einige der Formatprobleme, die in Rohdaten auftreten können. Jedes Mal, wenn Sie Rohdaten abfragen, besteht die Gefahr, dass Sie Ihre Ergebnisse falsch interpretieren oder falsch aufschlüsseln.
- Doppelte oder fehlende Datensätze: Rohdatensätze enthalten oft doppelte Einträge oder fehlende Werte. Ohne ein geeignetes Verfahren zur Bereinigung und Validierung der Daten werden Sie die meiste Zeit damit verbringen, diese Probleme manuell zu lösen, was zu unvollständigen oder falschen Analysen führt.
Wenn verschiedene Teams Rohdaten ohne Standardisierung abfragen, gehen sie oft unterschiedlich mit diesen Inkonsistenzen um, was zu widersprüchlichen Ergebnissen führt: Ein Team könnte fehlende Werte als Null behandeln, während ein anderes sie völlig ignoriert, und wieder andere könnten den zuvor bekannten Datenpunkt nehmen, was zu einem inkonsistenten Verständnis der Daten führt.
Leistung und Kosten: Die versteckte Bürde
Die Abfrage von Rohdaten scheint zwar schneller zu sein, aber die versteckten Kosten in Bezug auf Leistung und Kosten sind erheblich, vor allem in Cloud-basierten Umgebungen wie Snowflake, BigQuery usw. Hier erfahren Sie, warum die Abfrage von Rohdaten ein Performance- und Kosten-Albtraum sein kann:
- Große, nicht optimierte Tabellen: Rohe Datensätze sind in der Regel groß. Wenn Sie unverarbeitete Daten abfragen, zwingen Sie die Datenbank oft dazu, Milliarden von Zeilen und Spalten zu durchsuchen, von denen viele für Ihre eigentliche Analyse irrelevant sein können.
- Teure Cloud-Kosten: In Cloud Data Warehouses ist jede Abfrage mit Kosten verbunden. Da die Rohdaten möglicherweise nicht für eine effiziente Abfrage optimiert sind, verbraucht jede Abfrage möglicherweise mehr Rechenleistung als nötig. Das Aggregieren von Rohdaten im laufenden Betrieb über lange Zeiträume ist ressourcenintensiv, was zu zusätzlichen Kosten führt und Ihre Abfragekosten mit der Zeit in die Höhe schnellen lässt.
- Wiederholte Transformationen: Da es bei Rohdaten keine vorgefertigte Logik oder Berechnungen gibt, müssen Sie bei jeder Abfrage komplexe Transformationen wie Verknüpfungen, Filter und Aggregationen erneut ausführen. Dadurch wird nicht nur jede Abfrage langsamer und teurer, sondern es werden auch wertvolle Rechenressourcen verschwendet, indem dieselben Vorgänge immer wieder wiederholt werden.
Das Rad neu erfinden: Doppelte Anstrengungen, inkonsistente Ergebnisse
Wenn mehrere Teams oder Einzelpersonen Rohdaten abfragen, muss jeder das Rad neu erfinden. Dies führt zu doppeltem Aufwand und inkonsistenter Geschäftslogik im gesamten Unternehmen. Ohne ein gemeinsames Datenmodell muss jedes Team seine eigenen Transformationen, Metriken und Berechnungen erstellen, was zu einer Reihe von Problemen führt:
- Doppelte Arbeit: Jedes Team erstellt schließlich seine eigenen Transformationen, um Rohdaten zu bereinigen und zu aggregieren. So kann ein Analyst beispielsweise Stunden damit verbringen, eine Transformation zur Berechnung des monatlichen Umsatzes zu erstellen, während ein anderes Team genau das Gleiche unabhängig davon tut. Dieser doppelte Aufwand verschwendet Zeit und Ressourcen im gesamten Unternehmen.
- Inkonsistente Geschäftslogik: Ohne standardisierte Metriken definieren verschiedene Teams wichtige Geschäftsmetriken (z.B. "monatlich aktive Benutzer" oder "Abwanderungsrate") oft auf leicht unterschiedliche Weise. Dies führt zu Verwirrung und einer falschen Entscheidungsfindung, da verschiedene Berichte widersprüchliche Aussagen über dieselben Daten machen.
Das Argument für ein gut durchdachtes Data Warehouse
Wenn also die Abfrage von Rohdaten eine so schlechte Idee ist, was ist dann die Alternative? Geben Sie eine Kimball-Style, Data Vault oder ein gut konzipiertes Data Warehouse. Hier werden die Rohdaten in etwas Sauberes, Strukturiertes und für effiziente Abfragen Optimiertes umgewandelt. Anstatt dass jeder das Rad neu erfindet, bringt ein Data Warehouse Ordnung in das Chaos. Hier erfahren Sie, warum dieser Ansatz nicht nur nützlich, sondern für jeden, der sich ernsthaft mit Analysen beschäftigt, unerlässlich ist.
Eine einzige Quelle der Wahrheit
Ein gemeinsames Datenmodell stellt sicher, dass es eine einzige, standardisierte Version der Wahrheit gibt. Metriken, wichtige Leistungsindikatoren (KPIs) und Geschäftsdefinitionen sind alle vordefiniert und im gesamten Unternehmen konsistent. Kein Streit mehr darüber, wessen Version des monatlichen Umsatzberichts korrekt ist - alle arbeiten mit denselben Daten.
- Vordefinierte Metriken: In einem Modell nach Kimball werden wichtige Kennzahlen (z.B. Umsatz, Kundenzahl) einmal definiert und berechnet. Dadurch wird das Risiko widersprüchlicher Ergebnisse vermieden und sichergestellt, dass jeder dieselben Definitionen verwendet.
- Zentralisierte Datenlogik: Die gesamte komplexe Geschäftslogik - z. B. wie wir "aktive Benutzer" oder "Abwanderung" definieren - ist im Datenmodell kodiert. Das bedeutet, dass Analysten diese Berechnungen nicht jedes Mal neu erstellen müssen, wenn sie die Daten abfragen.
Vorregistriert und für Leistung optimiert
In einem Data Warehouse werden die Rohdaten in Tabellen umgewandelt, die für Abfragen optimiert sind. In einem Data Warehouse im Kimball-Stil speichern Faktentabellen beispielsweise Transaktionsdaten (z.B. Verkaufstransaktionen), während Dimensionstabellen beschreibende Informationen (z.B. demografische Daten von Kunden) speichern. Dieses Design unterstützt schnelle, effiziente Abfragen.
- Vor-Aggregation: Daten, die üblicherweise in aggregierter Form verwendet werden (z.B. tägliche oder monatliche Umsätze), können voraggregiert werden, d.h. Analysten müssen nicht bei jeder Abfrage Summen oder Durchschnittswerte über Milliarden von Zeilen berechnen.
- Optimiert für Abfragen: Dimensions- und Faktentabellen sind so konzipiert, dass teure Tabellenscans minimiert werden. Abfragen, die bei Rohdaten Stunden dauern würden, können in Sekunden erledigt werden.
Sicherung der Datenqualität
Ein grundlegendes Datenmodell gewährleistet die Datenqualität, indem es als Torwächter für saubere, gut strukturierte Daten fungiert. Im Idealfall durchläuft es mehrere automatisierte Tests, um sowohl die Lesbarkeit des Codes als auch die Genauigkeit der Daten zu überprüfen. Diese Tests helfen dabei, Fehler zu finden, Konsistenz zu gewährleisten und die Zuverlässigkeit zu erhalten, damit das Modell gut funktioniert und die Daten vertrauenswürdig bleiben.
Fazit
Es gibt zwar berechtigte Gründe für die Abfrage von Rohdaten, denken Sie nur an Data Science, Validierungszwecke oder andere spezifische Anforderungen, aber für die Analyse führt dies oft zu mehr Problemen als zu deren Lösung. Von Problemen mit der Datenqualität und inkonsistenten Metriken bis hin zu Leistungsengpässen und unnötigen Kosten. Die Lösung? Ein gut strukturiertes, geregeltes Datenmodell, das die Geschäftslogik zentralisiert, die Datenkonsistenz gewährleistet und die Leistung optimiert. Vertrauen Sie uns - sobald Sie die Vorteile eines strukturierten Datenmodells erkannt haben, werden Sie nicht mehr zu Rohdaten zurückkehren wollen.
Gehören Sie zu einem Unternehmen, das sich mit der Implementierung von Best Practices für die Datenmodellierung befasst? Unsere Berater für Analytik-Ingenieure sind für Sie da - nehmen Sie einfach Kontakt mit uns auf und wir melden uns bei Ihnen. Oder sind Sie ein Analyst, Analytiker oder Datentechniker und möchten mehr über Datenmodellierung erfahren? Sehen Sie sich unser Data Warehousing und Datenmodellierung Kurs von Xebia Academy oder werfen Sie einen Blick auf unsere offenen Stellen .
Foto von Cristi Ursea auf Unsplash
Verfasst von
Bo Lemmers
Unsere Ideen
Weitere Blogs
Contact



