Blog

Grundlagen der Datentechnik

David A. Gil Méndez

Aktualisiert April 20, 2026

Im Folgenden finden Sie eine Rezension des Buches Fundamentals of Data Engineering von Joe Reis und Matt Housley, das im Juni 2022 bei O'Reilly erschienen ist, und einige Lektionen zum Mitnehmen. Die Autoren geben an, dass das Zielpublikum aus Technikern besteht und, zweitens, aus Geschäftsleuten, die mit Technikern zusammenarbeiten. Die Zielgruppe ist sehr weit gefasst, wenn man sie so beschreibt. Dennoch stimme ich ihnen voll und ganz zu. Dieses Buch ist für einen Projektmanager oder eine andere nicht-technische Rolle ebenso geeignet wie für einen Informatikstudenten oder einen Dateningenieur.

In diesem Beitrag möchte ich Ihnen einige Erkenntnisse vorstellen, die ich gerne gewusst hätte, als ich vor vier Jahren meinen Weg als Dateningenieur begann. Wenn Sie das, was ich hier erzähle, interessant finden, holen Sie sich ein Exemplar dieses großartigen Buches.

Ich werde über den ersten und den dritten Teil des Buches berichten. Der zweite Teil des Buches, genannt "Der Lebenszyklus der Datentechnik im Detail" (210 von 406 Seiten), richtet sich an technische Menschen. Dennoch habe ich festgestellt, dass die Autoren all diese technischen Einzelheiten auf eine freundliche Art und Weise für nicht-technische Personen erklären, die neugierig auf den Lebenszyklus von Data Engineers sind.

Data Engineering Beschrieben

In den letzten Jahren wurde von einem Dateningenieur erwartet, dass er weiß und versteht, wie man eine Handvoll leistungsstarker und monolithischer Technologien verwendet, um eine Datenlösung zu erstellen. Ihre Arbeit bestand unter anderem in der Verwaltung und Wartung von Clustern, dem Management von Overhead und dem Schreiben von Pipeline- und Transformationsaufträgen. Die folgenden Zitate stammen aus jenen Jahren:

Data Engineers set up and operate the organization’s data infrastructure, preparing it for further analysis by data analysts and scientist. - AltexSoft

All the data processing is done in Big Data frameworks like MapReduce, Spark and Flink. While SQL is used, the primary processing is done with programming languages like Java, Scala and Python. - Jesse Anderson

The data engineering field could be thought of as a superset of business intelligence and data warehousing that brings more elements from software engineering. - Maxime Beauchemin

Heutzutage konzentrieren sich Dateningenieure darauf, die einfachsten, kosteneffizientesten und besten Dienste zu entwickeln, die dem Unternehmen einen Mehrwert bieten. Vom Dateningenieur wird außerdem erwartet, dass er flexible Datenarchitekturen erstellt, die sich mit neuen Trends weiterentwickeln. Die Fähigkeiten eines Data Engineers umfassen die folgenden Bereiche Unterströmungen:

Sicherheit
Datenverwaltung
DataOps
Daten Architektur
Softwareentwicklung

Schließlich jongliert ein Dateningenieur mit vielen komplexen, beweglichen Teilen und muss ständig entlang der folgenden Achsen optimieren:

Data Engineering ist zu einer ganzheitlichen Praxis geworden. Die besten Dateningenieure sehen ihre Aufgaben durch eine geschäftliche und technische Brille. Es reicht nicht mehr aus, Architekturen zu entwickeln, die Leistung und Kosten auf hohem Niveau optimieren. Ein Dateningenieur sollte:

Sie wissen, wie Sie mit nichttechnischen und technischen Personen kommunizieren können.
Verstehen Sie, wie man Geschäfts- und Produktanforderungen erfasst und einbezieht.
Verstehen Sie die kulturellen Grundlagen von Agile, DevOps und DataOps.

Der Lebenszyklus der Datentechnik und seine Unterströmungen

Während der vollständige Datenlebenszyklus die Daten über ihre gesamte Lebensdauer hinweg umfasst, konzentriert sich der Lebenszyklus des Data Engineers auf die Phasen, die ein Data Engineer kontrolliert. Das bedeutet, dass der Data-Engineering-Lebenszyklus Phasen umfasst, in denen Rohdaten in ein nützliches Endprodukt verwandelt werden. Die Autoren unterteilen den Data-Engineer-Lebenszyklus in fünf Phasen:

Generation
Lagerung
Verschlucken
Transformation
Daten servieren

Der Bereich bewegt sich in der Wertschöpfungskette nach oben und umfasst traditionelle Unternehmenspraktiken wie Datenmanagement und Kostenoptimierung sowie neue Praktiken wie DataOps. Alle Phasen des Lebenszyklus eines Data Engineers müssen die zuvor aufgeführten Punkte berücksichtigen Unterströmungen um richtig zu funktionieren.

Sicherheit

Die Sicherheit muss für Dateningenieure an erster Stelle stehen. Sie müssen sowohl den Datenzugriff als auch die Sicherheit verstehen und nach dem Prinzip der geringste Privilegien. Geben Sie den Benutzern nur den Zugriff, den sie für ihre Arbeit benötigen, und nicht mehr. Menschen und Organisationsstrukturen sind immer die größten Sicherheitslücken in jedem Unternehmen. Datensicherheit ist auch eine Frage des Timings - geben Sie genau den Personen und Systemen Zugriff auf die Daten, die sie benötigen, und nur so lange, wie es für die Ausführung ihrer Arbeit notwendig ist.

Datenverwaltung

Datenmanagement umfasst eine Reihe von Best Practices, die Dateningenieure zur technischen und strategischen Verwaltung von Daten einsetzen. Ohne einen Rahmen für die Datenverwaltung sind Dateningenieure lediglich Techniker, die in einem Vakuum arbeiten. Dateningenieure brauchen eine umfassendere Perspektive für den Nutzen von Daten im gesamten Unternehmen, von den Quellsystemen bis hin zur Führungsebene und überall dazwischen. Datenmanagement hat eine ganze Reihe von Facetten, darunter die folgenden:

Datenverwaltung, einschließlich Auffindbarkeit und Verantwortlichkeit
Datenmodellierung und -design
Abstammung der Daten
Lagerung und Betrieb
Datenintegration und Interoperabilität
Verwaltung des Lebenszyklus von Daten
Datensysteme für fortgeschrittene Analytik und ML
Ethik und Datenschutz

DataOps

DataOps überträgt die besten Praktiken der Agile-Methodik, DevOps und der statistischen Prozesskontrolle auf Daten. DataOps zielt darauf ab, die Freigabe und Qualität von Datenprodukten zu verbessern. Es lehnt sich stark an die schlanke Produktion und das Supply Chain Management an und kombiniert Menschen, Prozesse und Technologie, um die Zeit bis zur Wertschöpfung zu verkürzen.

DataOps is a collection of technical practices, workflows, cultural norms, and architectural patterns that enable:

Schnelle Innovation und Experimente liefern den Kunden immer schneller neue Erkenntnisse

Äußerst hohe Datenqualität und sehr niedrige Fehlerquoten

Zusammenarbeit über komplexe Bereiche von Menschen, Technologien und Umgebungen hinweg

Klare Messung, Überwachung und Transparenz der Ergebnisse

- Daten Küche

Daten Architektur

Die Datenarchitektur spiegelt den aktuellen und zukünftigen Zustand von Datensystemen wider, die den langfristigen Datenbedarf und die Strategie eines Unternehmens unterstützen. Ein Dateningenieur sollte die Bedürfnisse des Unternehmens verstehen und diese in neue Wege der Datenerfassung und -bereitstellung umsetzen und dabei ein Gleichgewicht zwischen Kosten und Einfachheit herstellen. Das bedeutet, dass er die Kompromisse mit Designmustern, Technologien und Tools in den Bereichen Quellsysteme, Ingestion, Speicherung, Transformation und Bereitstellung von Daten kennt.

Softwareentwicklung

Software-Engineering war schon immer eine zentrale Fähigkeit für Dateningenieure. Dennoch wurde die Low-Level-Implementierung der frühen Tage, etwa von 2000 bis 2010, abstrahiert. Diese Abstraktion setzt sich heute fort. Obwohl sie abstrakter und einfacher zu handhaben geworden ist, muss der Kerncode für die Datenverarbeitung immer noch geschrieben werden.

Dateningenieure müssen Frameworks und Sprachen wie Spark, SQL oder Beam sehr gut beherrschen und produktiv einsetzen können. Außerdem ist es unerlässlich, dass ein Dateningenieur die richtigen Code-Testmethoden wie Unit-, Regressions-, Integrations-, End-to-End-, Last- und Smoke-Test beherrscht.

Wenn Dateningenieure ihre Infrastruktur in einer Cloud-Umgebung verwalten müssen, tun sie dies zunehmend über IaC-Frameworks (Infrastructure as Code), anstatt Instanzen manuell aufzusetzen und Software zu installieren. In der Praxis werden Dateningenieure, unabhängig davon, welche High-Level-Tools sie einsetzen, während des gesamten Data-Engineering-Lebenszyklus auf Eckfälle stoßen, die es erforderlich machen, dass sie Probleme außerhalb der Grenzen ihrer gewählten Tools lösen und eigenen Code schreiben müssen.

Grundsätze einer guten Datenarchitektur

Erfolgreiches Data Engineering basiert auf einer soliden Architektur.

Good data architecture serves business requirements with a common, widely reusable sets of building blocks while maintaining flexibility and making appropriate trade-offs. Bad architecture is authoritarian and tries to cram a bunch of one-size-fits-all decision into a big ball of mud. - Joe Reis und Matt Housley, Grundlagen der Datentechnik

Gute Datenarchitektur ist flexibel und leicht zu pflegen. Es ist eine lebendige, atmende Sache. Es ist nie fertig. A gute Datenarchitektur floriert, wenn es eine zugrunde liegende Unternehmensarchitektur gibt.

Enterprise architecture is the design of systems to support change in the enterprise, achieved by flexible and reversible decisions reached through careful evaluation of trade-offs. - Joe Reis und Matt Housley, Grundlagen der Datentechnik

Grundsätze der Data Engineering Architektur:

Wählen Sie gemeinsame Komponenten mit Bedacht.
Planen Sie für das Scheitern.
Architekt für Skalierbarkeit.
Architektur ist Führung.
Seien Sie immer architektonisch.
Bauen Sie lose gekoppelte Systeme.
Treffen Sie reversible Entscheidungen.
Priorisieren Sie die Sicherheit.
Machen Sie sich FinOps zu eigen.

Gemeinsame Komponenten mit Bedacht wählen

Gemeinsame Komponenten sollten für jeden zugänglich sein, der einen geeigneten Anwendungsfall hat, und die Teams werden ermutigt, auf bereits verwendete gemeinsame Komponenten zurückzugreifen, anstatt das Rad neu zu erfinden. Gemeinsame Komponenten müssen robuste Berechtigungen und Sicherheitsfunktionen unterstützen, um die gemeinsame Nutzung von Ressourcen durch Teams zu ermöglichen und gleichzeitig unbefugten Zugriff zu verhindern.

Architekten sollten Entscheidungen vermeiden, die die Produktivität von Ingenieuren, die an domänenspezifischen Problemen arbeiten, behindern, indem sie sie zu einer Einheitslösung zwingen.

Planen Sie für das Scheitern

Everything fails, all the time. - Werner Vogels, CTO von Amazon Web Services

Einige Bereiche, die Sie im Auge behalten sollten, wenn Sie einen Misserfolg planen:

Architekt für Skalierbarkeit

Skalierbarkeit in Datensystemen umfasst zwei Hauptfunktionen. Erstens können skalierbare Systeme aufstocken um große Datenmengen zu verarbeiten. Zweitens, sie können verkleinern sobald die Belastungsspitzen beendet sind. Wenn Ihr Unternehmen oder das Unternehmen, für das Sie arbeiten, viel schneller wächst als erwartet, sollte dieses Wachstum auch zu mehr verfügbaren Ressourcen führen, um die Skalierbarkeit neu zu gestalten.

Architektur ist Führung

Datenarchitekten sollten über ein hohes Maß an technischer Kompetenz verfügen, aber die meiste Arbeit an andere delegieren, die einen individuellen Beitrag leisten. Starke Führungsqualitäten in Kombination mit hoher technischer Kompetenz sind selten und äußerst wertvoll. Die besten Datenarchitekten nehmen diese Dualität ernst.

Als Dateningenieur sollten Sie sich in der Architekturführung üben und sich von Architekten beraten lassen. Irgendwann werden Sie vielleicht selbst die Rolle des Architekten einnehmen.

Immer architektonisch sein

Die Aufgabe eines Architekten besteht darin, ein umfassendes Wissen über die Basisarchitektur (aktueller Stand) zu entwickeln, eine Zielarchitektur zu entwerfen und den Ablaufplan zu erstellen, um die Prioritäten und die Reihenfolge der Architekturänderungen festzulegen.

Lose gekoppelte Systeme aufbauen

When the architecture of the system is designed to enable teams to test, deploy, and change systems without dependencies on other teams, teams require little communication to get work done. In other words, both the architecture and the teams are loosely coupled. - Google DevOps Leitfaden zur technischen Architektur

Für die Softwarearchitektur hat ein lose gekoppeltes System die folgenden Eigenschaften:

Systeme werden in kleine Komponenten zerlegt.
Diese Systeme sind über Abstraktionsschichten mit anderen Diensten verbunden, z. B. über einen Messaging-Bus oder eine API.
Interne Änderungen an einer Systemkomponente erfordern keine Änderungen an anderen Teilen.
Jede Komponente wird separat aktualisiert, wenn Änderungen und Verbesserungen vorgenommen werden.

Treffen Sie reversible Entscheidungen

Die Datenlandschaft ändert sich schnell. Die angesagte Technologie von heute ist morgen schon wieder überholt.

One of architect’s most important task is to remove architecture by finding ways to eliminate irreversibility in software designs. - Martin Fowler

Sicherheit priorisieren

Alle Dateningenieure sollten sich als Sicherheitsingenieure betrachten. Diejenigen, die mit Daten umgehen, müssen davon ausgehen, dass sie letztlich für deren Sicherung verantwortlich sind. Die zwei wichtigsten Ideen sind unter anderem Zero-Trust-Sicherheit und geteilte Verantwortung.

Traditional architectures place a lot of faith in perimeter security […]. Unfortunately, this approach has always been vulnerable to insider attacks, as well as external threats such as spear phishing. - Die fünf Grundsätze von Google Cloud

Machen Sie sich FinOps zu eigen

FinOps is an evolving cloud financial management discipline and cultural practice that enables organizations to get maximum business value by helping engineering, finance, technology, and business teams to collaborate on data-driven spending decisions. - Die FinOps Stiftung

Arten von Datenarchitekturen

Lambda Architektur (2000)

In einer Lambda-Architektur ist das Quellsystem idealerweise unveränderlich und append-only und sendet Daten zur Verarbeitung an zwei Ziele: Stream und Batch. Die In-Stream-Verarbeitung zielt darauf ab, die Daten mit der geringstmöglichen Latenz in einer "Speed"-Schicht, in der Regel einer NoSQL-Datenbank, bereitzustellen. In der Batch-Schicht werden die Daten in einem System wie einem Data Warehouse verarbeitet und umgewandelt, wobei vorberechnete und aggregierte Datenansichten erstellt werden. Die Serving-Schicht bietet eine kombinierte Ansicht, indem sie Abfrageergebnisse aus den beiden Schichten zusammenfasst.

Kappa Architektur (2014)

Die Kappa-Architektur wurde als Antwort auf die Unzulänglichkeiten der Lambda-Architektur vorgeschlagen. Die zentrale These ist die Stream-Verarbeitung aller Daten. Echtzeit- und Stapelverarbeitung können nahtlos auf dieselben Daten angewendet werden, indem der Live-Ereignisstrom direkt gelesen und große Datenpakete für die Stapelverarbeitung wiedergegeben werden.

Das Datenflussmodell (2015)

Der Kerngedanke des Datenflussmodells besteht darin, alle Daten als Ereignisse zu betrachten, da die Aggregation über verschiedene Arten von Fenstern erfolgt. Laufende Echtzeit-Ereignisströme sind Unbegrenzte Daten. Datenstapel sind begrenzte Ereignisströme. Echtzeit- und Stapelverarbeitung erfolgen im selben System mit nahezu identischem Code.

IoT (1990)

Das Internet der Dinge ist eine verteilte Sammlung von Geräten. Während das Konzept der IoT-Geräte mindestens ein paar Jahrzehnte zurückreicht, hat die Smartphone-Revolution praktisch über Nacht einen riesigen IoT-Schwarm geschaffen. Das IoT hat sich von einer futuristischen Fantasie zu einem riesigen Bereich der Datentechnik entwickelt.

Data Mesh (2022)

Das Data Mesh versucht, die Herausforderungen der zentralisierten Datenarchitektur umzukehren, indem es die Konzepte des domänenorientierten Designs auf die Datenarchitektur anwendet. Anstatt die Daten aus den Domänen in einen zentralen Datensee oder eine zentrale Plattform zu leiten, müssen die Domänen ihre Domänendaten hosten und auf eine leicht konsumierbare Weise bereitstellen.

Auswahl der Technologien

Die Gegenwart ist möglicherweise die verwirrendste Zeit in der Geschichte der Bewertung und Auswahl von Technologien. Bei der Auswahl von Technologien geht es um ein Gleichgewicht zwischen Anwendungsfall, Kosten, Aufbau oder Kauf und Modularisierung. Gehen Sie bei der Technologie genauso vor wie bei der Architektur: Bewerten Sie Kompromisse und streben Sie reversible Entscheidungen an.

Sicherheit und Datenschutz

Sicherheit ist ein wichtiger Bestandteil des Datenschutzes. Der Schutz der Privatsphäre ist seit langem ein entscheidender Faktor für das Vertrauen in die Informationstechnologie von Unternehmen; Ingenieure arbeiten direkt oder indirekt mit Daten, die das Privatleben von Menschen betreffen. In zunehmendem Maße ist der Datenschutz eine Angelegenheit von erheblicher rechtlicher Bedeutung. In der Europäischen Union wurde Mitte der 2010er Jahre die GDPR verabschiedet. Mehrere Gesetze in den USA wurden bereits verabschiedet oder werden in Kürze verabschiedet. Die Strafen für Verstöße gegen diese Gesetze können für ein Unternehmen erheblich, ja sogar verheerend sein.

Menschen

Das schwächste Glied in Sachen Sicherheit und Datenschutz ist Sie. Verhalten Sie sich so, als ob Sie immer ein Ziel wären. Nehmen Sie bei allem, was Sie online und offline tun, eine defensive Haltung ein. Üben Sie die Macht der negatives Denken und immer paranoid sein.

Negatives Denken ermöglicht es uns, katastrophale Szenarien in Betracht zu ziehen und sie zu verhindern. Der beste Weg, private und sensible Daten zu schützen, besteht darin, diese Daten gar nicht erst zu erfassen. Dateningenieure sollten sensible Daten nur dann erfassen, wenn ein tatsächlicher Bedarf im Anschluss daran besteht.

Seien Sie immer vorsichtig, wenn Sie jemand nach Ihren Anmeldedaten fragt. Im Zweifelsfall sollten Sie sich bei anderen Personen vergewissern, dass die Anfrage legitim ist. Trauen Sie niemandem für bare Münze, wenn er Sie nach Ihrer Legitimation fragt.

Prozesse

Unternehmen konzentrieren sich auf die Einhaltung von Vorschriften, anstatt über schlechte Szenarien nachzudenken (negatives Denken). Dies ist die Sicherheitstheater, bei dem die Sicherheit buchstabengetreu eingehalten wird, ohne sich wirklich zu engagieren. Stattdessen sollten Unternehmen den Geist echter und gewohnheitsmäßiger Sicherheit verfolgen.

Aktive Sicherheit bedeutet, über Sicherheitsbedrohungen in einer dynamischen und sich verändernden Welt nachzudenken und sie zu erforschen. Anstatt Phishing-Angriffe zu simulieren, können Sie erfolgreiche Phishing-Angriffe studieren und über die Sicherheitsschwachstellen Ihres Unternehmens nachdenken.

Wenden Sie das Prinzip der geringstes Privileg auf Menschen und Maschinen: Geben Sie ihnen nur die Privilegien und Daten, die sie für ihre Arbeit benötigen, und nur für die benötigte Zeit. Manchmal müssen einige Daten aufbewahrt werden, auf die aber nur im Notfall zugegriffen werden sollte. Bringen Sie diese Daten hinter einen gläsernen Prozess: Benutzer können nur nach einem Notfallgenehmigungsverfahren auf sie zugreifen, um ein Problem zu beheben. Der Zugriff wird sofort widerrufen, sobald die Arbeit erledigt ist.

In der Zwischenzeit werden die meisten Sicherheitsverletzungen in der Cloud nach wie vor von den Endbenutzern verursacht, nicht von den Cloud-Anbietern. Sicherheitsverletzungen entstehen durch unbeabsichtigte Fehlkonfigurationen, Fehler, Versäumnisse und Schlampigkeit (z. B. die Konfiguration des Zugriffs auf Objektspeicher für das gesamte Internet).

Und vergessen Sie nicht, Ihre Daten zu sichern. Daten verschwinden. Ein Datenverlust kann durch einen Festplattenausfall, einen Ransomware-Angriff oder einen Brand in einem Rechenzentrum verursacht werden. Wer weiß das schon?

Technologie

Im Folgenden finden Sie einige wichtige Bereiche, denen Sie Priorität einräumen sollten:

Patch- und Update-Systeme
Verschlüsselung
Protokollierung, Überwachung und Alarmierung
Netzwerkzugang

Software veraltet und es werden ständig Sicherheitslücken entdeckt. Führen Sie immer Patches und Updates für Betriebssysteme und Software durch, sobald neue Updates verfügbar sind.

Verschlüsselung ist kein Wundermittel. Sie wird Sie nur wenig schützen, wenn ein Mensch durch eine Sicherheitslücke Zugang zu Anmeldedaten erhält. Verschlüsselung ist eine Grundvoraussetzung. Daten sollten sowohl im Ruhezustand als auch bei der Übertragung verschlüsselt werden.

Protokollierung, Überwachung und Alarmierung dienen der Beobachtung, Erkennung und Meldung von Vorfällen. Sie müssen auf verdächtige Ereignisse aufmerksam werden, wenn sie in Ihrem System auftreten. Wenn möglich, sollten Sie eine automatische Erkennung von Anomalien einrichten.

Als Datentechniker werden Sie so oft mit Datenbanken, Objektspeichern und Servern zu tun haben, dass Sie zumindest einfache Maßnahmen kennen sollten, die Sie ergreifen können, um sicherzustellen, dass Sie sich an die guten Praktiken für den Netzwerkzugang halten. Verstehen Sie, welche IPs und Ports offen sind, für wen und warum.

Die Zukunft des Data Engineering

In diesem Abschnitt haben die Autoren Prognosen erstellt, die auf historischen Trends basieren und darauf, wie sich die Branche ihrer Meinung nach von ihrem derzeitigen Zustand aus entwickeln könnte. Dies sind die Namen der Abschnitte in diesem Kapitel:

Der Lebenszyklus der Datentechnik wird nicht verschwinden

Der Niedergang der Komplexität und der Aufstieg von einfach zu bedienenden Daten-Tools

Das Cloud-Scale Data OS und verbesserte Interoperabilität

"Unternehmerische" Datentechnik

Titel und Verantwortlichkeiten werden sich ändern...

Jenseits des modernen Datenstapels, hin zum Live-Datenstapel

Der Live-Datenstapel

Streaming Pipelines und analytische Echtzeit-Datenbanken

Die Fusion von Daten mit Anwendungen

Die enge Rückkopplung zwischen Anwendungen und ML

Daten zur Dunklen Materie und der Aufstieg von... Tabellenkalkulationen?!

Fazit

Das Buch geht mehrmals auf jedes Thema ein und stellt aus verschiedenen Blickwinkeln Verbindungen zu anderen Themen her. Am Ende des Buches haben die Autoren einen ganzheitlichen Überblick über das, worum es bei Data Engineering geht, geschaffen.

Diese Art der Darstellung der verschiedenen Verantwortlichkeiten ermöglicht es technischen und nicht-technischen Mitarbeitern, die Rolle, die Aufgaben und die Beziehungen innerhalb des Teams und der Organisation klar zu verstehen.

Wenn Sie sich für Data Engineering interessieren, empfehle ich Ihnen, sich hier ein Exemplar zu besorgen: Die Grundlagen der Datentechnik .

Ich hoffe, dass Ihnen die Lektüre dieses Buches genauso viel Spaß macht wie mir (oder sogar noch mehr). Wenn Sie mehr über unsere Arbeit erfahren möchten, nehmen Sie Kontakt mit uns auf und fragen Sie uns nach Ihrem Bedarf an Data Engineering.

Tags: