Blog

Modern Data Stack: Der Weg zur Demokratisierung von Daten

Guillermo Sánchez Dionis

Aktualisiert Oktober 20, 2025
9 Minuten

Wir sind uns alle einig, dass Daten bei der Art und Weise, wie wir heute Geschäfte machen, eine vorherrschende Rolle spielen. Jeder versucht, auf den datengesteuerten Zug aufzuspringen. Der Grund für diese allgemeine Übereinstimmung ist, dass Daten ein immens wertvolles Gut sind, das die bestmögliche Entscheidungsfindung für jedes Unternehmen ermöglichen kann. Nun, jedes Unternehmen, das diese Daten seinen Mitarbeitern zur Verfügung stellt. Hoffentlich für alle Mitarbeiter, nicht nur für das kleine Datenteam, das gerne wachsen möchte, aber nicht genügend Ressourcen zur Verfügung hat. Und genau darum geht es in diesem Blogbeitrag, um die Verfügbarkeit von Daten. Nun, Datenverfügbarkeit klingt nicht so gut, also lassen Sie uns das bevorzugte Wort im Bereich der Datenverwaltung verwenden: Datendemokratisierung.

Was ist also Datendemokratisierung? Ich denke, die meisten von Ihnen haben inzwischen von diesem Begriff gehört, also werde ich Sie nicht zu sehr mit detaillierten Erklärungen belästigen. Kurz gesagt geht es bei der Datendemokratisierung darum, sicherzustellen, dass jedes Team im Unternehmen Zugang zu Daten hat. Welche Daten, werden Sie vielleicht fragen. Nun, natürlich wollen wir nicht jedes Team mit jedem Detail der Daten überhäufen, aber wir sollten zumindest dafür sorgen, dass das Finanzteam Zugriff auf alle transaktions- und rechnungsbezogenen Daten hat und dass das Marketingteam den Status seiner letzten Marketingkampagnen überprüfen kann. Dies ist natürlich nur ein Beispiel. Ich bin sicher, dass Ihnen beim Lesen dieses Artikels noch tausend weitere einfallen.

Jetzt haben wir die Vision. Jeder im Unternehmen hat zeitnahe Berichte, Entscheidungen werden links und rechts auf der Grundlage der solidesten Beweise getroffen, wir gehen jeden Freitag um zwei Uhr los, um Caipirinhas zu trinken, weil das Geschäft so gut läuft, wie es nur geht. Angetrieben von der Verheißung dieser Utopie versuchen wir, unsere Anstrengungen darauf zu lenken, sie zu verwirklichen, aber irgendwie läuft es nicht so reibungslos. Und warum? Denn Daten für jedermann verfügbar zu machen, ist nicht so einfach, wie es sich anhört, und traditionell hat es (merken Sie sich diese Vergangenheitsform) einer sehr wichtigen Ressource in der Datenwelt, dem Dateningenieur, viel Zeit gekostet.

Der Engpass

Data Engineers, diese seltenen Diamanten, die so schwer zu finden sind und doch so gebraucht werden. So großartig sie auch sind, sie sind der Grund dafür, dass sich die Datendemokratisierung in den meisten Unternehmen nicht so schnell ausbreitet. Ich meine, das ist nicht ihre Schuld, perse, alle, die ich getroffen habe, sind wirklich nette Leute und meinen es nicht böse. Es ist eher ein Problem von Angebot und Nachfrage. Es gibt viele Abteilungen in einem Unternehmen, die genaue und zeitnahe Daten benötigen, aber es gibt nicht genug Dateningenieure, die sie bedienen können. Sie denken jetzt vielleicht: "Was für ein Blödsinn! Also stellen wir mehr ein!". Nun, das wird nicht so einfach sein, wie es klingt. Trotz des ganzen Hypes um die Datenwissenschaftler sind sich die meisten Berichte über Tech-Jobs einig, dass der Dateningenieur die am meisten nachgefragte Rolle ist (z.B. Dice 2020 Tech Job Report). Die Nachfrage übersteigt das Angebot bei weitem.

Warum brauchten wir früher überhaupt Dateningenieure? Vielleicht kennen Sie die Antwort auf diese Frage bereits, aber ich möchte trotzdem alle Grundlagen abdecken. Wir brauchen sie, um die Datenplattform aufzubauen, auf der Ihre Teams, Abteilungen und Referate Self-Service betreiben können. Wie schwer ist es denn, diese Datenplattform aufzubauen? Nun, es ist schwer. Aber das Schwierigste ist nicht die Auswahl des zu verwendenden Technologiepakets oder der zu verwendenden Cloud. Der schwierigste Teil ist der Aufbau aller erforderlichen Datenpipelines, damit Ihre Teams an einem zentralen Ort Zugriff auf alle benötigten Datenquellen haben. Auch die Pflege dieser Pipelines kann eine mühsame Aufgabe sein, die Ihrem Data-Engineering-Team immens viel Zeit abverlangt. Bei vielen dieser Pipelines handelt es sich um relativ einfache Extrahier- und Ladeaufträge, d.h. um das Kopieren von Daten aus einer Datenquelle und deren Replikation in den Data Lake oder das Warehouse Ihrer Wahl. Sie sind nicht besonders aufregend und dennoch ziemlich schwer zu pflegen.

Abschließend lässt sich sagen, dass wir Dateningenieure brauchen und, was noch wichtiger ist, dass wir sie anziehen müssen, aber es gibt nicht viele, und sie machen nicht gerne unaufregende, sich wiederholende Arbeit, die furchtbar zu warten ist. Dies deutet in eine Richtung. Bei der Demokratisierung von Daten sollte es nicht darum gehen, hundert neue Data Engineers einzustellen (vielleicht reichen fünf). Bei der Demokratisierung von Daten sollte es darum gehen, die technische Arbeit zu reduzieren.

Aktivieren Sie Ihre Analysten

Wie kann ich den technischen Aufwand reduzieren? werden Sie vielleicht fragen. Nun, ich habe es mit dem Titel dieses Abschnitts ein wenig verdorben. In der Tat müssen Sie Ihre Analysten befähigen. Was bedeutet Befähigung? Nun, Befähigung bedeutet, dass Ihre Analysten damit beginnen sollten, ihre "Datenrolle" von Datenkonsumenten zu Dateneigentümern zu ändern.

An dieser Stelle denken Sie vielleicht, dass ich mir selbst widerspreche. Ich habe gerade erwähnt, dass der Aufbau einer Datenplattform eine komplexe Aufgabe ist, die einer bestimmten Anzahl von Personen vorbehalten ist, die nur schwer zu finden sind (d.h. Dateningenieure). Ich habe aber auch erwähnt, dass ein großer Teil dieser Aufgabe darin besteht, Datenpipelines von den benötigten Quellen bis zum Verbrauchspunkt aufzubauen und zu pflegen. Stellen Sie sich vor, all diese Datenpipelines, diese Datentransformationen, die Datenmodellierung könnten von Ihren Analysten mit wenig bis gar keiner Unterstützung durch Ihr Data Engineering Team durchgeführt und gepflegt werden. Ihre Teams könnten unbegrenzt auf Datenressourcen zugreifen und Daten nach Bedarf nutzen, ohne eine Anfrage nach der anderen an das Datenteam stellen zu müssen. Ihre Dateningenieure werden sich gerne auf schwierigere Aufgaben konzentrieren, z.B. den Aufbau von Streaming-Systemen für die Entscheidungsfindung in Echtzeit oder die Einführung von Machine Learning-Modellen in die Produktion. Alle sind glücklich. Es scheint, als würde ich wieder ins Utopialand abdriften... oder vielleicht auch nicht.

Der moderne Datenstapel

Quelle: blog.getdbt.com

Die Demokratisierung von Daten ist näher denn je, und der Modern Data Stack. Was ist der Modern Data Stack? Es handelt sich um eine Reihe von Tools, die die Komplexität der Einrichtung und Abstimmung einer Datenplattform reduzieren. Durch die Automatisierung dieser mühsamen Extrahier- und Ladevorgänge wird die unnötige Arbeit, alle Ihre spärlichen Datenquellen an einen Ort zu bringen, stark reduziert. Mit Tools wie Fivetran oder Stitch, die über vorgefertigte Konnektoren zu Hunderten von Datenquellen verfügen, war das Verschieben von Daten in Ihr Data Warehouse noch nie so einfach. Das Beste an diesen Tools ist, dass sie eine super intuitive Benutzeroberfläche haben, die alle Ihre Analysten nutzen können, ohne sich Gedanken über das Schreiben einer Zeile Code zu machen.

Jetzt befinden sich Ihre Daten im Warehouse und Sie müssen natürlich einige Analysen durchführen. Das bedeutet Aktivitäten wie die Modellierung von Daten, die Aggregation von Daten oder die Verknüpfung verschiedener Quellen, um den Wert Ihrer Daten zu erhöhen. Das klingt nach Ingenieursarbeit, oder? Zum Glück ist das nicht mehr nötig. Das ist das Unglaubliche daran, dass Sie Ihre Daten im Data Warehouse haben: Sie können alle Ihre Transformationen in SQL schreiben! Da SQL deklarativ ist, ist es die intuitivste Sprache für Datenumwandlungen. SQL ist nicht nur intuitiv, sondern die meisten Analysten beherrschen diese Sprache heutzutage auch sehr gut. Ein weiterer netter Vorteil ist, dass moderne Data Warehouses (BigQuery oder Snowflake) automatisch skalieren, wenn sie sehr stark ausgelastet sind, so dass Sie Spark sogar für Ihre starken Transformationen vergessen können! Die Komplexität wird von Sekunde zu Sekunde geringer.

Wenn Sie ein Technikfan sind, fragen Sie sich jetzt vielleicht, wie es möglich ist, all diese Transformationen zu verwalten, wenn sie in die Hunderte gehen. Hunderte von SQL-Abfragen in einem Ordner zu speichern, ist wirklich nicht einfach, oder? Was ist, wenn ich eine dieser Transformationen aktualisieren möchte? Oder zu einer früheren Version eines meiner SQL-Skripts zurückkehren möchte? Wenn Sie sich bereits in diesem Stadium befinden, wird dbt (Data Build Tool) Ihr bester Freund sein. dbt hilft Ihnen dabei, diese ganze Komplexität zu bewältigen, indem es einige nette Praktiken wie Dokumentation, Transformations-/Modellreihenfolge (d.h. welche Transformation zuerst ausgeführt wird), Datentests (d.h. seltsame Transaktionen mit negativen Werten) und eine nette Versionskontrolle mit Git integriert, um sicherzustellen, dass Sie alles an einem Ort haben und die Versionierung verfolgen können.

All diese Technologien zusammen klingen definitiv nach der richtigen Kombination, aber dennoch müssen wir unsere Analysten befähigen, sich diesen Konzepten zu nähern. Dieser Weg wird sie wahrscheinlich in eine neue Rolle führen, die des Analytics Engineer. Wenn einige Ihrer Analysten den Hut des Analytics Engineer aufsetzen, kommen Sie wahrscheinlich der Demokratisierung von Daten in Ihrem Unternehmen näher. Um zu erklären, was ein Analytics Engineer ist, brauchen wir mindestens einen weiteren Blogbeitrag, wie zum Beispiel diesen hier. Für den Moment können Sie sich diese Rolle als einen Ihrer Datenanalysten vorstellen, der lernt, wie man einige der oben beschriebenen Tools und Praktiken einsetzt.

Der Kreis schließt sich

Wenn Sie bis zu diesem Punkt gekommen sind, bedeutet das, dass dieser Diskurs mit dem übereinstimmt, was Sie in Ihrem Unternehmen brauchen. Das sind, in guter Ingenieursmanier, Aufzählungspunkte:

  • Die Datenübernahme im Unternehmen ist nicht dort, wo Sie sie haben wollen.
  • Sie wollen schnell vorankommen, werden aber durch fehlende Data-Engineering-Fähigkeiten stark eingeschränkt.
  • Sie sind der Meinung, dass die Befähigung Ihrer Analysten (sei es im Marketing, im Finanzwesen oder in einer anderen Abteilung), Datenprozesse selbst zu verwalten, deren Engagement, Produktivität und Fähigkeit, auf der Grundlage von Daten zu handeln, steigern wird.

Bei der Demokratisierung von Daten geht es zu 30% um die Technologie und zu 70% um die Einstellung. Das Gute daran ist, dass die 30% gerade viel besser geworden sind. Die Übertragung von Daten an die Verbrauchsstellen war noch nie so einfach, schnell und skalierbar. Wenn Sie tiefer in die Details einsteigen oder einfach nur einige der Punkte dieses Beitrags diskutieren möchten, können Sie sich gerne an mich wenden.

Wir haben bei GDD eine wirklich aktive Community rund um den Modern Data Stack und Analytics Engineering. Für kommende Veranstaltungen besuchen Sie bitte unsere Linkedin-Event-Seite und unsere Analytics Engineering Meetup-Gruppe.

Verfasst von

Guillermo Sánchez Dionis

Contact

Let’s discuss how we can support your journey.