Blog
Eine Datenplattform ist eine ganz normale Plattform

Eine Datenplattform ist nichts anderes als eine normale (Cloud-)Plattform, die mit einigen zusätzlichen Funktionen ausgestattet ist, um sie an die Anforderungen der Datendomäne anzupassen. Anstelle der Anwendungen, die auf einer "normalen" Plattform laufen, wie z.B. (Web-)Dienste und Front-Ends, laufen hier ELTs/ETLs und Datenanwendungen.
Es baut auf gemeinsamen Plattformbausteinen auf und bietet den Benutzern alles, was sie brauchen, um ihre Datenanwendungen vollständig in die Hand zu nehmen, z. B:
- Compute
Datenanwendungen und ELTs müssen wie jede andere Anwendung auch irgendwo laufen. Wie jede andere Plattform müssen also auch für sie die notwendigen Ressourcen zur Verfügung stehen. - Speicherung
Die Daten auf Ihrer Datenplattform müssen irgendwo gespeichert werden. Dies ist der so genannte Data-Lake. Aufgrund des großen Datenvolumens muss dieser für niedrige Kosten/Volumen optimiert werden.
Da alle Datenanwendungen potenziell gleichzeitig auf die Daten zugreifen können, muss der Speicher mit diesen Anforderungen mitwachsen können. Die großen Volumina erfordern auch, dass die Daten parallel/gleichzeitig gelesen werden, und die Speicherlösung sollte für den Durchsatz und nicht für die Latenzzeit optimiert sein.
Aufgrund dieser Anforderungen sind Objektspeicher wie S3 auf AWS oder Cloud Bucket auf GCP eine gute Wahl. Sie sind relativ billig pro GB, sind in ihrer maximalen Größe nicht begrenzt und ermöglichen eine anständige Skalierung beim parallelen Zugriff.
Um eine hohe Leistung und Effizienz zu bieten, werden die Dateien (oft) im Spaltenformat (d.h. Parquet) in einem so genannten Data Lake gespeichert.
- CI/CD
Genau wie andere Anwendungen müssen auch ELT/ETL- und Datenanwendungen erstellt, getestet und bereitgestellt werden. Dies sollte mit standardmäßigen CI/CD-Lösungen geschehen. - Überwachung, Dashboarding und Alarmierung
Damit Benutzer die volle Verantwortung für ihre Projekte übernehmen können, müssen Überwachungs-, Dashboarding- und Alarmierungslösungen vorhanden sein. Auf diese Weise können sie problemlos Einblicke in ihre Projekte erhalten und informiert werden, wenn etwas passiert. - Konnektivität zu anderen Systemen/Datenquellen
Um Daten aus verschiedenen Quellen extrahieren zu können, benötigt der Extraktionsprozess Konnektivität zu diesen Quellen, genauso wie eine neue Anwendung Konnektivität zu einem Legacy-Backend benötigen könnte.

Auch Nicht-Funktionen wie Skalierbarkeit, Zuverlässigkeit, Benutzerfreundlichkeit, Wartbarkeit, Portabilität, Erweiterbarkeit und Sicherheit gelten für die Grundlagen der Datenplattform genauso wie für eine normale Plattform.
...mit mehr Fokus auf einige Bereiche
Einige Funktionen sind bei einer normalen Plattform und einer Datenplattform identisch, konzentrieren sich aber möglicherweise mehr auf bestimmte Bereiche oder stellen aufgrund der inhärenten Herausforderungen der Datendomäne, wie z.B. das große Datenvolumen oder das Vorhandensein mehrerer Kopien der gleichen Daten, zusätzliche Herausforderungen dar. Gute Beispiele hierfür sind die Bereitstellung von Rechenressourcen, die für die Beschleunigung bestimmter Datenanwendungen wie KI-Beschleuniger oder GPUs optimiert sind, sowie Compliance und Governance. Eine GDPR-Anforderung wäre für eine normale Anwendung mit einer einzigen Datenbank einfach zu erfüllen, könnte aber ein wesentlich schwierigeres Problem darstellen, wenn sie garantiert auf alle Daten in einem Data Lake und in den möglicherweise verstreuten Ausgaben aller Datenanwendungen angewendet werden muss.
Skalierbarkeit bzw. eine elastische Plattform kann für eine Datenplattform erhebliche Kostenvorteile mit sich bringen, da Datenanwendungen, die in Stapeln ausgeführt werden, oft einen hohen Ressourcenbedarf haben.
...und einige zusätzliche Funktionen
Und schließlich gibt es Funktionen, die nur auf einer Datenplattform zur Verfügung stehen. All dies wird auf der Grundlage der gemeinsamen Bausteine jeder Plattform bereitgestellt.
Beispiele hierfür sind:
- Workflow-Management-System
Sowohl ELT/ETL als auch Datenanwendungspipelines müssen geplant werden, um Daten zu laden oder zu verarbeiten. Dies geschieht in der Regel nach einem periodischen Zeitplan und beinhaltet die Ausführung mehrerer Aufgaben in einer bestimmten Reihenfolge. Ein Beispiel hierfür ist Apache Airflow. - Datenkatalog
Der Datenkatalog ermöglicht es Benutzern, die gesuchten Daten leicht zu finden. Er dient als Bestandsaufnahme der verfügbaren Daten, erweitert sie mit kollaborativen Metadaten und macht sie leicht durchsuchbar. Beispiele hierfür sind AWS Glue Data Catalog oder Google Data Catalog. - SQL-basierter Datenexplorations-Stack
Der Datenexplorations-Stack ermöglicht es Benutzern, einen schnellen Überblick über den Inhalt der Daten zu erhalten, die sie mit dem Datenkatalog gefunden haben. Die SQL-Schnittstelle ermöglicht die Erstellung einfacher Kombinationen von Datenquellen und eignet sich auch für Analysen und Dashboarding. Ein Beispiel hierfür ist Presto oder AWS Athena. - Entwicklungs- und Explorations-Stack für Datenanwendungen
Mit dem Data-Science-Entwicklungs-Stack können Benutzer ihre Datenanwendungen entwickeln und testen. Er besteht aus Rechenkapazitäten und verfügt in der Regel über eine notizbuchähnliche Schnittstelle wie Jupyter.
Abschließende Gedanken
Betrachten Sie eine Datenplattform als nichts anderes als eine normale (Cloud-)Plattform, die mit einigen zusätzlichen Funktionen ausgestattet ist, um sie an die Anforderungen der Datendomäne anzupassen. Das Wissen über normale Plattformtechnologien und Bausteine hilft Ihnen bei der Arbeit an Ihrer Datenplattformstrategie und beim Start Ihrer Datenplattforminitiative. Behalten Sie die Grundprinzipien im Auge und fügen Sie bei Bedarf datenspezifische Funktionalitäten hinzu. Dies sollte Ihr Weg zu einer erfolgreichen Datenplattform sein.
Wenn Sie mehr darüber erfahren möchten, wie Sie die Daten Ihres Unternehmens optimal nutzen können, sehen Sie sich diese Ressourcen an:
- DevOps für Datenwissenschaft
- https://xebia.com/blog/devops-in-a-data-science-world
- Webinar über Devops in einer datenwissenschaftlichen Welt
Verfasst von
Marcel Jepma
Unsere Ideen
Weitere Blogs
Contact



