Artikel
5 Merkmale der modernen Datenplattform

Unternehmen, Institutionen und Organisationen aus verschiedenen Bereichen und Branchen beziehen Daten aus vielen verschiedenen Quellen und nutzen sie auf vielfältige Weise und für zahlreiche Zwecke. Da die Komplexität der Daten exponentiell zunimmt (vor allem in größeren Unternehmen), ist eine moderne Datenplattform für die Konsolidierung der Datenverwaltung und die Extraktion ihres tatsächlichen Werts unverzichtbar.
Eine Datenplattform sammelt, verarbeitet, analysiert und präsentiert Daten aus verschiedenen Systemen und Prozessen durch eine Sammlung von Technologien. Was genau eine "Datenplattform" ist, variiert jedoch je nach Zweck und Auffassung. Manche bezeichnen eine "Lösung", die noch ein bisschen weiter geht als Business Intelligence, als Datenplattform. Andere stellen strengere Anforderungen und geben sich nicht mit einer Lösung zufrieden, die weniger als eine durchgängige Datenverwaltung bietet.
Auf jeden Fall muss jede Datenplattform aus verschiedenen Schichten bestehen, mindestens drei oder vier. Die erste Schicht beginnt mit der Datenaufnahme - der Sammlung und Eingabe von Daten aus verschiedenen Quellen. Diese Daten müssen dann irgendwo gespeichert werden, z.B. in einem Objektspeicher oder einem Data Warehouse. Danach kommt eine dazwischen liegende Serverschicht, möglicherweise mit einem Analysestack.
Aber wie jede Technologie entwickelt sich auch die Datenplattform schnell weiter. Vor zehn Jahren konnte man eine Datenplattform als "modern" bezeichnen, wenn sie aus Hadoop bestand. Jetzt gibt es neue Anforderungen. Hier sind die fünf Merkmale, die eine moderne Datenplattform aufweisen muss.
Cloud-basiert und verwaltet
Laut Diederik Greveling, CTO bei GoDataDriven, hat Cloud Computing eine wichtige Rolle in der modernen Datenplattform von heute gespielt. "Die Cloud hat neue Technologien eingeführt und eine neue Art der Arbeit mit Daten gebracht", erklärte Greveling während des GoDataFest 2021 von Club Cloud. "Wir sehen, dass Tools, insbesondere verwaltete Tools, wie Fivetran, Stitch oder Airbyte immer häufiger eingesetzt werden. In Kombination mit der Cloud machen diese Tools die Datenplattform einfacher zu pflegen und leichter zu skalieren, als es bei On-Premises der Fall war", sagte er.
Standard für Katalogisierung und Datenabfolge
Unternehmen müssen zunehmend in der Lage sein, die Daten zu verfolgen. Ein Datenkatalog und eine Datenabfolge machen dies möglich. Was früher ein nachträglicher Gedanke war und der Plattform später hinzugefügt wurde, ist jetzt eine Standardkomponente. "Es ist entscheidend, dass nicht nur Data Scientists und Data Engineers mit den Daten arbeiten, sondern auch die Analysten", erklärt Greveling. Auch die Marketingteams wollen Zugang zu allen Finanzdaten."
Von ETL zu ELT
Das traditionelle Verfahren, um Daten aus verschiedenen Systemen zu ziehen und in einem Data Warehouse zu kombinieren, war ETL: extract-transform-load. Sie zogen die Daten zunächst aus dem System und passten sie vor dem Laden an den Data Lake an. Heute bewegen wir uns in Richtung ELT - extract-load-transform. Mit der modernen Datenplattform werden die Rohdaten zunächst im Data Lake gespeichert und dann transformiert. Das erfordert mehr Rechenleistung, aber die Cloud bietet die Kapazität dafür.
"Da der Schritt vom Extrahieren zum Laden standardisiert ist, müssen Sie nicht mehr all diese separaten Transformationen durchführen", erklärt Greveling. "Es bietet eine standardisierte Methode für den Übergang von MySQL zu BigQuery, so dass ich nicht mehr einen oder zwei Datentechniker einsetzen muss, um all diese separaten Transformationen zu verwalten. Es ist ein einfacher, linearer Prozess", sagte er.
Standardisierung
Jedes Unternehmen ist anders, und der Wert von Daten liegt hauptsächlich im Anwendungsfall. Das machte die Einrichtung traditioneller lokaler Datenplattformen zu einer enormen Herausforderung. Alles musste maßgeschneidert werden, die Modelle mussten alle in Produktion gebracht werden, und alles musste an die Anforderungen angepasst werden. "Bis zu einem gewissen Grad ist das immer noch der Fall", sagt Greveling, "aber der große Unterschied zur modernen Datenplattform ist, dass alles standardisiert ist, was die Implementierungszeit erheblich verkürzt, vor allem zu Beginn."
Das Unternehmen hat für einen Kunden bereits eine operative Datenplattform innerhalb weniger Wochen geliefert, was früher Monate dauerte. "Wenn Sie sich die Anforderungen vieler Kunden ansehen, stellen Sie fest, dass sie in vielen Punkten übereinstimmen. Sie können die Grundlage in ein paar Wochen schaffen und sich dann auf den Anwendungsfall konzentrieren. Das ist wirklich wichtig", sagte er.
Macht Data Mesh möglich
Das fünfte Merkmal der modernen Datenplattform ist, dass sie es Unternehmen ermöglicht, eine Data Mesh-Architektur als Prozess zu implementieren. Dieses neue Konzept dezentralisiert das Datenteam, so dass Sie einen enormen potenziellen Engpass vermeiden können. In gewissem Sinne ist Data Mesh mit Microservices vergleichbar, allerdings für Datenplattformen. Die Datenströme werden auf verschiedene Teams aufgeteilt, die sie in geeigneter Weise nutzen können. "Sie können dann den gesamten Datenprozess innerhalb des Unternehmens skalieren", erklärt Greveling. Da die verschiedenen Komponenten mit Hilfe von APIs problemlos Datensätze austauschen können, kann jedes Team zum Beispiel seine eigene BigQuery-Umgebung weiter nutzen.
"Die Verwaltung der Daten ist dezentralisiert, aber die gemeinsame Nutzung der Daten ist standardisiert", fasst Greveling zusammen. "Das ist wirklich sehr mächtig."
Technologische Revolution
Dank der enormen Rechenleistung der Cloud ist die moderne Datenplattform in entscheidenden Punkten deutlich besser als das herkömmliche, vor Ort installierte Modell. Sie erweitert die Möglichkeiten der Wertschöpfung aus Ihren Daten und verbessert gleichzeitig die Prozesse in Ihrem Unternehmen. Eine MDP verhilft Unternehmen außerdem zu einer kürzeren Time-to-Market und einer schnelleren Implementierung - und das alles bei minimalen Wartungs- und Verwaltungskosten.
Unsere Ideen
Weitere Artikel

Amazon Bedrock AgentCore: die Laufzeitbasis für die Entwicklung, Bereitstellung...
Walter van der Scheer
Contact


