Blog

Von Daten zu Weisheit: Die richtigen Fragen stellen

Durch die Gestaltung der Datenaufnahme werden Daten zu Erkenntnissen. In diesem Artikel wird die DIKW-Pyramide verwendet, um frühzeitige Entscheidungen aufzuzeigen, die skalierbare, zuverlässige Ergebnisse ermöglichen.

Katerina Tashoska

Katerina Tashoska

Aktualisiert März 17, 2026
9 Minuten

Von Daten zu Weisheit: Die richtigen Fragen stellen

Die Entwicklung einer Pipeline für die Datenübernahme ist ein wesentlicher Bestandteil der Umwandlung von Daten in Erkenntnisse. In diesem Artikel werden Tools und Architekturen beiseite gelassen, um die Datenübernahme durch die Brille der organisatorischen Intelligenz zu betrachten, wobei die DIKW-Pyramide als Leitfaden dient. Sie erfahren, welche Fragen wichtig sind , bevor die Daten in Ihre Plattform einfließen, wie sich frühe Entscheidungen auf alle vorgelagerten Bereiche auswirken und warum die richtigen Grundlagen der schnellste Weg zu zuverlässigen, skalierbaren Ergebnissen sind.

Anpassung der Daten an die Systeme von Organization Intelligence

Vor einigen Monaten wurde ich gebeten, eine Lösung für die Dateneingabe zu entwickeln. Die Anfrage schien technisch einfach zu sein, aber ich fragte mich: Würde diese Lösung das Unternehmen wirklich in die Lage versetzen, neue Datenquellen effektiv zu nutzen und eine fundierte Entscheidungsfindung zu unterstützen? Ohne klare Antworten wurde mir klar, dass ich einen Schritt zurücktreten und verstehen musste, welchen Platz Daten in der breiteren Landschaft der organisatorischen Intelligenz einnehmen.

Die Reise verstehen

Um meinen Ansatz zu strukturieren und eine Strategie zu definieren, die eine bessere Entscheidungsfindung unterstützt, wandte ich mich an die DIKW-Pyramide (Data, Information, Knowledge, Wisdom) - ein Rahmenwerk, das den Weg von Rohdaten zu umsetzbarem Wissen aufzeigt.


Adaptation from “Data to wisdom” – Russell L. Ackoff, 1989

Die Grundlage sind Daten: rohe, unverarbeitete Fakten und Zahlen. Hier gelangen die Informationen zum ersten Mal in die Datenplattform - einzelne Transaktionen aus einer Datenbank, Sensormesswerte von IoT-Geräten, API-Antworten oder Clickstream-Ereignisse von einer Website. In diesem Zustand fehlt es den Daten an Kontext und Bedeutung.

Die nächste Ebene sind Informationen: Daten, die verarbeitet, strukturiert und in eine sinnvolle Form gebracht wurden. Wenn wir Transaktionen nach Kundensegmenten zusammenfassen oder Sensormesswerte im Zeitverlauf analysieren, um Muster zu erkennen, verwandeln wir Daten in Informationen. Informationen beantworten die Fragen "Was ist passiert?" und "Wann ist es passiert?".

Auf der Grundlage von Informationen entsteht Wissen: die Anwendung von Informationen in einem bestimmten Kontext, oft durch Kombination mehrerer Quellen, um Zusammenhänge und zugrunde liegende Prinzipien zu verstehen. Wissen hilft uns bei der Beantwortung der Frage, "wie" und "warum" etwas passiert - zum Beispiel, wenn wir erkennen, dass bestimmte Sensormuster auf einen frühzeitigen Geräteausfall hindeuten.

An der Spitze steht die Weisheit: die Fähigkeit, fundierte Urteile und Entscheidungen auf der Grundlage von Wissen, Erfahrung und Werten zu treffen. Weisheit bedeutet, Wissen strategisch einzusetzen, um Entscheidungen zu treffen, die mit den Unternehmenszielen übereinstimmen und zum Handeln führen.

Das Wichtigste an der DIKW-Pyramide ist, dass Sie keine Schritte überspringen können. Ohne ordnungsgemäß eingebundene, vertrauenswürdige Daten in der Basis stürzt alles, was darüber liegt, in sich zusammen. Wenn Sie ausreichend Zeit in die Daten- und Informationsebene investieren und frühzeitig die richtigen Fragen stellen, schaffen Sie ein stabiles Fundament, das spätere kostspielige Fehlersuche verhindert und den Weg zu zuverlässigen Erkenntnissen beschleunigt.

Daten-Onboarding: Die Grundlage schaffen

Für eine erfolgreiche Dateneingabe ist es wichtig zu verstehen, woher Ihre Daten stammen. Die Quelle bestimmt direkt die Zuverlässigkeit, Qualität und Nützlichkeit der Daten, die in das Ökosystem gelangen. Wenn Sie wissen, wie die Daten generiert werden, erhalten Sie den Kontext, den Sie benötigen, um die Genauigkeit zu bewerten, potenzielle Lücken oder Verzerrungen zu erkennen und die richtige Ingestionsstrategie zu wählen - egal ob Batch, Streaming oder API-gesteuert.

Eine klare Kenntnis der Datenherkunft ermöglicht auch eine angemessene Governance und Compliance, so dass sensible Daten sicher und gemäß den gesetzlichen Vorschriften behandelt werden. Es unterstützt die Rückverfolgbarkeit und die Abstammung, was die Fehlerbehebung erleichtert und das Vertrauen in die Analyseergebnisse stärkt. Ohne die Quelle zu kennen, riskieren Unternehmen, dass ihre Entscheidungen auf einem instabilen Fundament aufbauen, was zu kostspieligen Fehlern und unzuverlässigen Erkenntnissen führt.

Verstehen von Datenquelle und Herkunft

Bevor Sie Daten übernehmen, sollten Sie die Anwendungen oder Systeme verstehen, die diese Daten produzieren. Dieses grundlegende Wissen hilft, potenzielle Probleme zu erkennen und eine Integrationsstrategie zu planen.

Die wichtigsten Fragen, die Sie stellen sollten:

  • Wie kann auf die Daten zugegriffen werden - über APIs, Dateiübertragungen oder direkte Datenbankverbindungen?
  • In welchem Format sind die Daten ursprünglich verfügbar?
  • Wie ist die Datenstruktur?

Diese Antworten prägen den technischen Ansatz und beeinflussen die nachgelagerten Entscheidungen über die Umwandlung und Lagerung und helfen uns bei der Festlegung:

  • Ob Batch-, Streaming-, API- oder Datenbankreplikations-Ingestion verwendet werden soll
  • Ob Schema-on-read oder Schema-on-write angemessen ist
  • Konvertierung in Parquet oder Avro für die Schemaentwicklung
  • Welcher Service verwendet werden soll (in der AWS-Welt: Kinesis Firehose, Glue, DMS oder EventBridge)

Bewertung von Datenaktualisierung und Skalierung

Daten sind nicht statisch. Das Verständnis von Änderungsmustern ist entscheidend für den Aufbau zuverlässiger Ingestion-Pipelines.

Kritische Überlegungen:

  • Wie oft werden die Daten und das Schema aktualisiert - in Echtzeit, stündlich, täglich oder nach Bedarf?
  • Wie werden Änderungen kommuniziert?
  • Wie hoch ist das typische Datenvolumen, und wie schnell wächst es?

Die Häufigkeit von Aktualisierungen wirkt sich direkt auf die Wahl der Architektur und die Ressourcenzuweisung aus. Wenn Sie die Muster der Schemaentwicklung kennen, können Sie Änderungen wie Spalten- oder Typänderungen verhindern. Volumen- und Wachstumsmuster sind gleichermaßen wichtig - ob Sie es mit Megabytes oder Petabytes zu tun haben und ob das Wachstum linear oder exponentiell verläuft, wirkt sich darauf aus, wie Sie skalierbare Lösungen entwerfen.

Zum Beispiel ein AWS-Beispiel, ohne häufige Schema-Evolution: Rohdaten → S3 → Einmaliger Glue Crawler → Datenkatalog → ETL → Verarbeitete Daten in S3 (flexible Formate wie CSV, JSON, Parquet)

Mit kontinuierlicher Schemaentwicklung: Rohdaten → S3 → Kontinuierlicher Glue Crawler → Datenkatalog → ETL → Halbverarbeitete Daten in S3 (Parquet-Format)

Diese Bewertung hilft Ihnen bei der Beurteilung von Genauigkeit, Zuverlässigkeit, Vollständigkeit, Konsistenz und Änderungshäufigkeit.

Bewertung der Datenqualität und -zuverlässigkeit

Qualitätserwartungen bilden die Grundlage für das Vertrauen in Ihre Daten. Welchen Grad an Genauigkeit, Vollständigkeit und Zuverlässigkeit können Sie erwarten? Diese Bewertung bestimmt, ob zusätzliche Validierungs-, Bereinigungs- oder Anreicherungsschritte während des Onboardings erforderlich sind.

Fragen, die Sie berücksichtigen sollten:

  • Welches Maß an Genauigkeit und Vollständigkeit kann erwartet werden?
  • Gibt es bekannte Probleme oder Lücken in der Datenqualität?
  • Wie wird die Datenqualität an der Quelle validiert?

Schlechte Datenqualität ist nicht nur ein technisches Problem, sondern auch ein Geschäftsrisiko. Wenn wir die Qualitätsmerkmale im Voraus kennen, können wir geeignete Kontrollen und Ausgleiche einführen, Überwachungsschwellen festlegen und realistische Erwartungen der Interessengruppen formulieren.

Verwaltung und Beaufsichtigung von Planungsdaten

Wenn die Daten erst einmal in Ihrem Ökosystem sind, wo werden sie dann gespeichert? Wenn Sie wissen, wohin die Daten gespeichert werden sollen, können Sie Kapazität, Leistung und Kosten optimal planen. Verschiedene Speicherlösungen - Data Lakes, Warehouses oder operative Datenbanken - dienen unterschiedlichen Zwecken und bieten unterschiedliche Vorteile.

  • Wo werden die Daten gespeichert, und wie wird die Speicherung für die Zugriffsmuster optimiert?
  • Welche Überwachungs- und Aufsichtsprozesse sorgen für die kontinuierliche Gesundheit der Pipeline?
  • Wer ist Eigentümer dieser Daten und wer ist für ihre Qualität und Verfügbarkeit verantwortlich?

Eine verlässliche Aufnahme erfordert eine kontinuierliche Überwachung und Beaufsichtigung. Welche Prozesse gewährleisten eine zuverlässige Aufnahme? Automatisierte Überwachung, Warnmeldungen und Validierung helfen, Probleme frühzeitig zu erkennen und den Zustand der Pipeline zu erhalten.

Schema-Überlegungen

Die Verwaltung von Schemas ist oft ein nachträglicher Gedanke, sollte aber ein Hauptanliegen sein. Wird sich Ihr Onboarding-Prozess auf die Schemaerkennung konzentrieren, die automatisch die Quellstrukturen erkennt und anpasst? Oder benötigen Sie robuste Schemaentwicklungsfunktionen, um Änderungen im Laufe der Zeit zu verarbeiten, ohne nachgelagerte Prozesse zu unterbrechen? Diese Entscheidungen wirken sich auf alles aus, vom anfänglichen Entwicklungsaufwand bis zum langfristigen Wartungsaufwand.

ETL: Die Transformationsmaschine

Extrahieren, Transformieren, Laden (ETL) sind die Prozesse, in denen die aufregende Arbeit stattfindet. Überlegen Sie, ob umfangreiche Transformationen notwendig sind, denn komplexe Transformationen wirken sich erheblich auf die Verarbeitungszeit und den Ressourcenbedarf aus.

Achten Sie bei der Verarbeitung auf die Struktur und Organisation der Datensätze:

  • Wie werden Sie die Datenkonsistenz über alle Transformationen hinweg aufrechterhalten?
  • Welche Strategien gibt es für die Duplizierung und Deduplizierung von Daten?
  • Wie werden Sie die Datenüberprüfung und Fehlerbehandlung während der Transformation handhaben?
  • Welchen Ansatz werden Sie für die Verwaltung langsam wechselnder Dimensionen verwenden?
  • Wie werden Sie die Datenherkunft und den Verlauf der Transformation verfolgen?
  • Welche Partitionierungsstrategie wird die Verarbeitungsleistung optimieren?
  • Wie werden Sie mit verspätet eintreffenden oder veralteten Daten umgehen?
  • Welche Mechanismen sorgen für Idempotenz in Ihrer Transformationslogik?

Diese Überlegungen gewährleisten die Datenintegrität in der gesamten Pipeline.

Optimierung der Speicherung

Bei der Speicherung geht es nicht nur um Kapazität, sondern auch um Organisation und Optimierung. Wie werden Sie Ihre Daten für einen effizienten Zugriff und eine effiziente Analyse organisieren? Geeignete Strategien wie die Partitionierung nach Datum oder die Kategorisierung nach Geschäftsbereichen verbessern die Abfrageleistung erheblich.

Wie können Sie den Speicher optimieren, um die Abfrageleistung zu verbessern? Techniken wie Indizierung, Komprimierung und die Wahl geeigneter Dateiformate können den Unterschied zwischen Abfragen, die in Sekunden und nicht in Stunden ausgeführt werden, ausmachen.

Sicherheit und Compliance

Sicherheit muss vom ersten Tag an in den Onboarding-Prozess integriert werden. Beginnen Sie mit der Klassifizierung von Daten und der Bewertung ihrer Sensibilität. Nicht alle Daten erfordern das gleiche Schutzniveau, und wenn Sie wissen, womit Sie arbeiten, können Sie Ihren Sicherheitsansatz entsprechend anpassen.

Implementieren Sie robuste Zugriffskontrollen: Wer kann auf welche Daten zugreifen und unter welchen Umständen? Eine rollenbasierte Zugriffskontrolle, Verschlüsselung im Ruhezustand und bei der Übertragung sowie Audit-Protokollierung sind wesentliche Komponenten.

  • Um welche Art von Daten handelt es sich, und wie sensibel sind sie?
  • Enthält sie PII, PHI oder andere vorgeschriebene Informationen?
  • Wer kann auf diese Daten zugreifen, und unter welchen Umständen?
  • Wie werden die Zugriffsberechtigungen verwaltet und geprüft?
  • Wie werden die Daten im Ruhezustand und bei der Übertragung verschlüsselt?
  • Welche Strategie zur Schlüsselverwaltung wird verwendet?

Beobachtungsfähigkeit ist Ihr Frühwarnsystem. Können Sie ungewöhnliche Zugriffsmuster oder potenzielle Verstöße erkennen? Wenn Sie Drittanbieter einbinden, stellen Sie sicher, dass Datenverarbeitungsverträge (Data Processing Agreements, DPAs) vorhanden sind, um die Sicherheits- und Compliance-Verpflichtungen zu formalisieren.

  • Welche Protokollierung und welche Prüfpfade werden den Datenzugriff verfolgen?
  • Wie werden Sie ungewöhnliche Zugriffsmuster oder mögliche Verstöße erkennen?
  • Welche gesetzlichen Anforderungen gelten für diese Daten?
  • Gibt es Datenverarbeitungsverträge (Data Processing Agreements, DPAs) für die Integration von Drittanbietern?
  • Was sind die Anforderungen an die Aufbewahrung und Löschung von Daten?

Navigieren durch Governance und Compliance

Data Governance ist im heutigen regulatorischen Umfeld nicht mehr optional. Welche gesetzlichen, Compliance- oder Richtlinienanforderungen gelten für diese Daten? Von GDPR und CCPA bis hin zu branchenspezifischen Vorschriften ist es wichtig, die Compliance-Verpflichtungen zu kennen, bevor Daten die Systemgrenzen überschreiten.

Eigentümerschaft und Verantwortlichkeit müssen klar festgelegt werden. Wer trägt die Verantwortung für die Daten? Klare Verantwortlichkeiten stellen sicher, dass immer jemand für die Datenqualität, die Sicherheit und die ordnungsgemäße Verwendung verantwortlich ist.

Fazit

Eine erfolgreiche Datenübernahme erfordert eine durchdachte Planung über mehrere Dimensionen hinweg - vom Verständnis der Eigenschaften der Datenquelle bis hin zur Implementierung robuster Sicherheitsmaßnahmen. Wenn Sie diese Aspekte systematisch berücksichtigen, können Sie Datenpipelines aufbauen, die nicht nur funktional, sondern auch zuverlässig, skalierbar und vertrauenswürdig sind.

Denken Sie daran: Die Fragen, die Sie sich vor dem Onboarding von Daten stellen, sind genauso wichtig wie die anschließende technische Implementierung. Daten sind der Treibstoff für KI - je besser der Treibstoff, desto besser die Leistung. Nehmen Sie sich die Zeit, es richtig zu machen.

Verfasst von

Katerina Tashoska

AWS Cloud Architect

Contact

Let’s discuss how we can support your journey.