Blog
Was passiert, wenn Sie bei der Datenmodellierung Mist bauen?

Die Diskussionen über den modernen Data Stack, Data Mesh und Self-Service haben zugenommen und versprechen, viele der Datenprobleme Ihres Unternehmens zu lösen. In der täglichen Arbeit des Analytics Engineering Teams von Xebia Data sehen wir jedoch immer noch, wie kleine und große Unternehmen damit kämpfen, die meisten der Kernkonzepte umzusetzen.
Es ist großartig, dass die Datenanalyse dank all dieser neuen Tools heute für jedermann zugänglicher denn je ist, aber das birgt auch eine Menge Risiken, die nicht oft diskutiert werden.
In diesem Blog-Beitrag möchten wir unsere Erfahrungen mit dem aktuellen Stand der Datenmodellierung in Unternehmen teilen und zeigen, was passiert, wenn Sie die Datenmodellierung in Ihrem Unternehmen vermasseln.
Der aktuelle Stand der Datenmodellierung in Unternehmen
Es wurde schon viel über verschiedene Datenmodellierungstechniken geschrieben, aber es muss noch mehr über die Realität der Datenmodellierung geschrieben werden. Die Kenntnis einer Datenmodellierungstechnik und ihre Umsetzung sind zwei völlig verschiedene Dinge. Es überrascht daher nicht, dass wir viele Unternehmen sehen, in denen die Mitarbeiter zwar etwas über Datenmodellierung wissen, aber Hilfe bei der richtigen Umsetzung benötigen.
Freie Datenmodellierung für alle
Eines der häufigsten Probleme, die wir in Unternehmen beobachten, ist, dass niemand für die Datenmodellierung verantwortlich ist: der Free-for-all-Ansatz. Meistens fehlt es an Eigenverantwortung und Visionen, oder es herrscht eine Art Datengeflecht, in dem alle Teams ihre eigene Arbeitsweise entwickeln.
Dies ist in der Regel auf das Bedürfnis einzelner Teams zurückzuführen, "etwas mit Daten zu tun", wobei die Koordination mit anderen Teams noch keine Priorität hat, was zu Datensilos führt.
Während das immer beliebter werdende Data-Mesh-Muster für einen dezentralen Ansatz bei der Datenanalyse plädiert, bei dem jedes Team die Autonomie hat, seine eigenen Pipelines zu erstellen, funktioniert dies in der Realität nur bei sehr wenigen Unternehmen gut.
Bei den meisten Unternehmen führt das Fehlen eines zentralisierten Ansatzes für die Datenmodellierung zu folgenden Problemen:
- Teams erstellen Datenumwandlungen auf ihre eigene Art und Weise. In diesem Fall ist die Zusammenarbeit zwischen den Teams schwierig und es wird viel Mühe darauf verwendet, die verschiedenen Arten der Datenmodellierung zu verstehen und abzustimmen. Jedes Team erstellt seine eigenen Pipelines, was zu doppelter Arbeit führt. Außerdem erfolgt die Datenumwandlung in mehreren Prozessschritten (Ingestion, Data Warehouse und Visualisierungstool), wodurch es noch schwieriger wird, den Überblick zu behalten.
- Teams erstellen ihre eigenen Datendefinitionen. Da jedes Team seine Pipelines von Grund auf neu erstellt, ist die Angleichung von Definitionen, Metriken und KPIs begrenzt oder gar nicht vorhanden und führt zu Diskussionen. Die Definition des
Umsatzes ist ein typisches Beispiel für eine Metrik, die auf viele verschiedene Arten definiert werden kann. Einige Teams beziehen vielleicht die Steuern in die Umsatzmetrik ein, während andere dies nicht tun, was zu Unstimmigkeiten führt.
Unternehmen nicht an Entscheidungen beteiligt
Letztendlich ist die Datenmodellierung dazu da, das Leben der Geschäftsanwender zu erleichtern. Wir sehen jedoch häufig, dass Datenteams für die Gestaltung der Datenmodelle verantwortlich sind. Obwohl Datenteams in der Regel über gute Kenntnisse der Datenkonzepte verfügen, fehlt ihnen meist der geschäftliche Kontext. Dies führt dazu, dass die Sprache des Unternehmens in den Datenmodellen überhaupt nicht wiedergegeben wird.
Entitäten und/oder Spaltennamen können technische Terminologie enthalten, sich auf Quelldatensysteme beziehen oder sich aus den Vorstellungen des Datenteams ergeben. Zum Beispiel könnten Entwickler die ID von eingeloggten Website-Benutzern in einer Spalte mit dem Namen
Auch hier gilt: Datenteams unterstützen das Unternehmen, nicht umgekehrt. Daher sollten die Geschäftsteams bei der Erstellung von Datenmodellen immer federführend und beteiligt sein.
Datenmodell Schulden
In engem Zusammenhang mit der ersten Beobachtung haben wir festgestellt, dass viele Unternehmen bei der Verwaltung von Datenmodellen in großem Maßstab mit dem Wachstum des Unternehmens nicht Schritt halten können. Die Datenmodelle werden groß und komplex, verursachen viele unnötige Rechenkosten, sind schwer zu navigieren und schließlich schwer zu pflegen oder zu erweitern. Beispiele dafür sind (1) die Aufbewahrung historischer Snapshots in einem Data Warehouse ohne Anwendungsfälle für Snapshots und (2) Modelle mit einer so komplizierten Abstammung, dass niemand weiß, wo er anfangen soll, wenn das Modell erweitert werden muss.
Wir sehen auch viele Fälle von "Schatten-BI", in denen Teams die Einschränkungen und Datenmodellschulden umgehen, indem sie sich direkt in die operativen Systeme einklinken oder Rohdaten verwenden und ihre eigenen Modelle direkt in Visualisierungstools erstellen, was zu noch mehr Datenmodellschulden führt. Schatten-BI" und die Diskussion darüber, wo die Datenmodellierung in Ihrer Pipeline stattfinden soll, ist ein Thema, das wir in einem zukünftigen Blogbeitrag behandeln werden!
Es mag einfach erscheinen, wenn Sie mit der Datenmodellierung beginnen, aber je größer die Anzahl der Datenmodelle ist, desto größer ist der Bedarf an einer soliden Datenmodellierungsvision und den damit verbundenen Prozessen. Die Datenmodell-Schulden, die Sie im Laufe der Zeit aufbauen, werden immer schwieriger zu lösen sein und zu Datenmodell-Schulden werden.
Schwarze Kästen
Selbst wenn es einen zentralisierten Ansatz für die Datenmodellierung gibt, ist es für andere Teams oft schwer zu verstehen, wie die Datenmodelle erstellt werden. Wir haben viele Fälle erlebt, in denen eine einheitliche Datenmodellierungstechnik verwendet wurde, ohne zu dokumentieren, wie diese Modelle entwickelt werden.
Stellen Sie sich vor, Sie sehen sich eine Reihe von Datenmodellen an und wissen nicht, wie diese erstellt wurden und woher die Quelldaten stammen. Würden Sie diesen Modellen vollständig vertrauen?
Mangelnde Fähigkeiten bei der Datenmodellierung
Eine weitere Beobachtung ist, dass Unternehmen und Datenexperten die Datenmodellierung nicht immer als Kernkompetenz ansehen, obwohl sie Datentransformationen durchführen.
Die meisten Kurse und Ausbildungen konzentrieren sich auf die sexy und glänzenden Dinge des Analytik-Engineerings, wie das Erlernen von SQL, Python und sogar das Erlernen bestimmter Tools. Auf die Datenmodellierung wird weniger Zeit verwendet. Dies spiegelt sich auch in den Einstellungsverfahren wider.
Wir haben viele Fälle erlebt, in denen Bewerber für Datenpositionen bei unseren Kunden über die erforderlichen Fähigkeiten verfügen, sich aber das Wissen aneignen müssen, um alle Datenmodelle effizient zu verwalten, wenn Sie das Unternehmen vergrößern. Darüber hinaus sehen nicht alle Unternehmen die Datenmodellierung als Kernkompetenz für Rollen in der Datentransformation an. So wird die Datenmodellierung in Vorstellungsgesprächen und Stellenbeschreibungen oft nicht erwähnt. Eine Strategie zur Datenmodellierung hängt von den Fähigkeiten der Mitarbeiter ab und ist genauso wichtig wie jeder andere Aspekt der Datenmodellierung.
Was riskieren Sie also, wenn Sie bei der Datenmodellierung Mist bauen?
Wir haben eine Reihe von Beobachtungen bei der Datenmodellierung gemacht, die wir häufig in Unternehmen beobachten, aber worum geht es wirklich?
Unnötige Kosten für Datenverarbeitung und Speicherung
Eine direkte und messbare Auswirkung sind höhere Rechen- und Speicherkosten aufgrund ineffizienter Datenmodellierungstechniken, Datenteams, die dieselben Datenmodelle neu erstellen und speichern, und mangelnder Datenmodellierungskenntnisse. Dies wird Ihre Cloud-Rechnungen belasten.
Zeit bis zum Wertanstieg
Alle Datenaktivitäten in einem Unternehmen sollten letztendlich zu verwertbaren Erkenntnissen führen. Nehmen wir jedoch an, dass Ihr Datenteam aufgrund eines inkohärenten Datenmodellierungsansatzes Hilfe bei der Pflege oder Erweiterung von Datenmodellen benötigt. In diesem Fall dauert es länger, bis die Daten das Unternehmen erreichen.
Darüber hinaus verbringen Analysten weniger Zeit mit der Gewinnung von Erkenntnissen und sind gezwungen, mehr Zeit damit zu verbringen, herauszufinden, wo sie Daten finden und wie sie diese nutzen können. Ein gut definiertes und gepflegtes Datenmodell kann dazu führen, dass weniger Datenanalysten die gleiche Menge an Wert liefern. Denken Sie darüber nach: Wenn Sie an einer Analyse arbeiten, um einen kürzlichen Anstieg der Kundenzahlen zu untersuchen, möchten Sie vielleicht einige Marketingdaten finden, um zu sehen, ob eine kürzlich durchgeführte Kampagne die Ursache sein könnte.
Die Anwendung einer geeigneten Datenmodellierungstechnik ermöglicht es Ihnen, die richtige Dateneinheit einschließlich ihrer Dokumentation schnell zu finden. Ohne diese Technik müssten Sie mehr Zeit damit verbringen, nach der richtigen Entität zu suchen, Fragen an Personen zu stellen, die mehr darüber wissen, und vielleicht sogar zu überprüfen, was tatsächlich in den Daten enthalten ist.
Nehmen wir schließlich an, die technischen Schulden häufen sich bis zu einem Punkt, an dem sie nicht mehr tragbar sind. In diesem Fall geht Zeit verloren, weil die Ingenieure die Datenmodelle überarbeiten oder sogar von Grund auf neu erstellen müssen, um das Problem zu lösen. Ein konsistenter Ansatz für die Datenmodellierung erleichtert die Anpassung Ihrer Datenmodelle an sich ändernde Geschäftsanforderungen. Ein inkonsistenter Ansatz führt bei jedem neuen Modell und/oder Attribut, das Sie hinzufügen möchten, zu vielen Diskussionen darüber, wie neue Quelldaten für Datenkonsumenten zugänglich gemacht werden können.
Diese Symptome sind schwieriger zu messen, aber wenn sich all dies summiert, wird es die Zeit verlängern, bis Sie aus den Daten Nutzen ziehen können.
Zeitaufwand für irrelevante Aufgaben
Wenn die Verantwortung für die Priorisierung und Definition der Datenmodelle in den Händen des Datenteams und nicht des Unternehmens liegt, werden die Prioritäten falsch gesetzt. Das Datenteam wird nicht unbedingt immer an dem arbeiten, was für das Unternehmen wichtig ist, und wird weniger effektiv die richtigen Daten für die Analysten bereitstellen.
Der Umgang mit Ihren Daten wird schwierig
Da die Teams unterschiedliche Methoden der Datenmodellierung verwenden, die Datenabstammung nicht gemeinsam nutzen und die Datenmodellierung in anderen Teilen der Pipeline erfolgt, ist es schwierig zu wissen, wo und von wem Ihre Daten verwendet werden. Vor allem für große Unternehmen ist Data Governance von entscheidender Bedeutung und hilft, die große Anzahl von Datenmodellen überschaubar zu halten. Mit einer geeigneten Datenmodellierungstechnik werden Ihre Datenmodelle konsistenter und organisierter und sind daher leichter zu verwalten.
Nehmen Sie die Datenmodellierung ernst
Wenn Sie die Datenmodellierung nicht als Kernkompetenz und Schwerpunkt Ihres Datenteams betrachten, birgt dies viele Risiken und macht Ihr Datenteam weniger effektiv. Es ist natürlich einfach für uns, darauf hinzuweisen, was bei der Datenmodellierung in Unternehmen falsch läuft. Aber noch besser ist es, uns mitzuteilen, wie man sie beheben kann. Wenn Sie mehr über die Datenmodellierung erfahren möchten, lesen Sie weitere Datenmodellierungs-Blogs und das Buch Fundamentals of Analytics Engineering, das von Mitgliedern des Analytics Engineering Teams bei Xebia Data geschrieben wurde und das Sie jetzt bestellen können!
Haben Sie eine Herausforderung bei der Datenmodellierung für uns? Sprechen Sie uns an, wir helfen Ihnen gerne weiter.
Foto von Omar Flores auf Unsplash`
Verfasst von

Thom van Engelenburg
Thom obtained degrees in Business, Marketing and Entrepreneurship giving fundamental knowledge of the needs of a business. Besides studying, he complemented his business knowledge with technical skills by learning how to program and work with data. The combination of business and tech has since been present in his various data roles and allows him to easily bridge business and tech teams.
Unsere Ideen
Weitere Blogs
Contact



