Blog

Wie entwickelt und pflegt man ein Data Warehouse im Zeitalter des Cloud Computing?

Murali Bommineni

Murali Bommineni

Aktualisiert Oktober 21, 2025
5 Minuten

Einführung

Im Zeitalter der digitalen Welt und mit dem Aufkommen neuer Technologien nimmt die Menge der Daten, die in einem Unternehmen erzeugt werden, rapide zu. Dieses Phänomen des schnellen und riesigen Datenaufkommens in einem Unternehmens-Ökosystem erfordert neue Methoden der Datenverarbeitung. Dieses Dokument erläutert die Methoden des Cloud Computing bei der Entwicklung und Pflege einer Data Warehouse-Plattform, die es ermöglicht, die Daten zu nutzen und ein Unternehmen in ein Unternehmen mit "datengesteuerter Entscheidungsfindung" zu verwandeln.

Typische Ansicht einer Data Warehouse-Architektur

Erkenntnisse aus Daten sind für jedes Unternehmen unerlässlich, um relevant und wettbewerbsfähig zu bleiben. Um dies zu erreichen, baut jedes Unternehmen ein Data-Warehouse auf, um Daten in verschiedenen Größen mit verschiedenen Technologien und Methoden zu verarbeiten. Data Warehouse (DW) hilft beim Aufbau von Business-Intelligence und ist ein integraler Bestandteil des digitalen Systems eines Unternehmens.

Die DWs agieren als:

  • Ein zentrales Repository für Daten aus heterogenen Quellen.
  • Ein zentraler Speicher für riesige Mengen an historischen Daten

Die DWs helfen einem Unternehmen dabei:

  • Identifizieren Sie anschauliche Muster von Geschäftstransaktionen
  • Erstellen Sie anschauliche Datenberichte und Analysen.

On-Premise Computing-Ökosystem zum Aufbau von DWs

Traditionell werden die DWs in einer lokalen und/oder privaten Cloud-Umgebung aufgebaut. Der Prozess der Entwicklung und Pflege des Data-Warehouse umfasst Folgendes:

  • Plattform für Computer
    • Extrahiert die Daten
    • Transformiert die Daten
    • Lädt die Daten in das Zielspeichersystem, auch Datenbank genannt.
  • Datenbank-Plattform
    • Die Lagerung
    • Die Fähigkeit, große Datenmengen optimal zu verarbeiten

Die eigenständige Anwendung, die die ETL-Funktionalität übernimmt, ist mit mehreren Datenquellen verbunden und nimmt die Daten in verschiedenen Phasen der DW-Entwicklung in die Zieldatenbank auf.

ETL als eigenständige Anwendung, die Ansicht des DW-Ökosystems

Probleme mit dem Nicht-Cloud-Computing-Ökosystem

Bei der Entwicklung von DWs machen die nicht cloudbasierten Legacy-Technologien die Rechen- und/oder Datenverwaltungsplattformen monolithisch. Da die DWs riesige Datenmengen speichern, ist das Ökosystem sehr ressourcenintensiv und führt zu Problemen, wie z.B.:

  • Hohe Reaktionszeit
  • Lange Dauer der Datenverarbeitung
  • Schwierigkeiten bei der Vergrößerung und Verkleinerung der Ressourcen.
  • Riesiger Ressourcenbestand

Diese Probleme treten an zwei Stellen auf: auf der Rechenplattform und in der Datenbank. Dieses Papier konzentriert sich auf die Rechenplattform und die damit verbundenen Methoden, die zur Linderung der Probleme eingesetzt werden können. Die Vorteile und der Vergleich von Cloud-basierten DWs liegen außerhalb des Rahmens dieses Artikels.

Die Rechenplattform, die das 'Extrahieren-Transformieren-Laden' durchführt, wird mit einer kundenspezifisch entwickelten COTS-Anwendung erstellt, die als Daten-Integrations-/ETL-Anwendung bekannt ist.

Bei diesem Ansatz würde die Berechnungsplattform, die in der obigen Abbildung als 'Datenintegration/ETL' dargestellt ist, mit zunehmender Anzahl von Datenquellen und/oder zunehmender Datengröße an ihre Grenzen stoßen. Um das Problem zu lösen, müssen die Ressourcen der Datenintegrations-/ETL-Anwendung aufgestockt werden, und die möglichen Ansätze sind:

  • Erhöhung der physischen Ressourcen in einer Instanz von Data-Integration/ETL-Anwendung
  • Vergrößerung der Instanzen von Data-Integration/ETL-Anwendungen

Diese Ansätze führen zu:

  • Gemeinkosten für den IT-Betrieb
  • Erhöhte CapEx
  • Erhöhte OpEx
  • Mangelnde Agilität bei der Ressourcennutzung

Die Datenbankplattform würde auch mit Ressourcenproblemen konfrontiert werden, da die in einer Vor-Ort-Plattform eingerichteten Ressourcen immer endlich sind und eine Vergrößerung zu ähnlichen Problemen führt, wie sie im Fall der Computerplattform zusammengefasst wurden.

Cloud Computing-Ökosystem zum Aufbau von DWs

Im modernen Computing löst die Cloud-Plattform die Herausforderungen, die in der traditionellen Computing-Plattform bestanden, und ermöglicht es, den Prozess der Entwicklung und Pflege der DWs agiler zu gestalten und optimal auf die Anforderungen des Unternehmens zu reagieren.

Die Umstellung auf die Cloud und der Einsatz von Technologien, die auf einer modernen Computing-Architektur basieren, würden einem Unternehmen dabei helfen:

  • Senken Sie die CapEx
  • Senken Sie die Betriebskosten
  • Steigern Sie die Agilität bei der Entwicklung von Unternehmens-DWs mit heterogenen Datenquellen.
  • Optimierung der Betriebskosten durch Skalierung der Ressourcen nach oben und unten

Eine monolithische Multitasking-Rechenplattform kann in kleinere containerisierte Rechensysteme zerlegt werden, eine solche Strategie wird als Mikro-Rechenstrategie bezeichnet. Eine solche Strategie wird als Micro-Computing-Strategie bezeichnet. Jede dieser Container-basierten Computerplattformen führt jeweils eine Aufgabe aus.

Die Vorteile der Micro-Computing-Strategie lassen sich wie folgt zusammenfassen:

  • Optimierte Betriebskosten
  • Die Fähigkeit, eine Micro-Computing-Plattform bei Bedarf für einen Geschäftsprozess aufzurufen.
  • Freigabe der Ressourcen nach Beendigung des Auftrags, so dass die Ressourcen für andere Mikrocomputerplattformen zur Verfügung stehen
  • Optimierte Ressourcennutzung durch dynamisches Hoch- und Runterskalieren der Ressourcen
  • Data Streaming

Native Cloud-Technologien und eine sorgfältige Orchestrierung zwischen den Aufträgen tragen dazu bei, dass die Aktivitäten zur Datenextraktion, -transformationund -ladungeffizient durchgeführt werden.

Ein solches Szenario kann folgendermaßen dargestellt werden:

Typische architektonische Sicht auf ein Data Warehouse mit Cloud-Technologien

Die aufkommenden Cloud-Technologien haben die Entwicklung und Pflege von Datenverwaltungsplattformen auf der Grundlage von Arbeitsabläufen erleichtert und dazu beigetragen, die Probleme zu lösen, die bei herkömmlichen Datenverwaltungsplattformen bestanden.

Wichtige Aktivitäten, die bei der Herstellung von Micro-Computing-Containern berücksichtigt werden können:

  • Datenerfassung
  • Datenbereinigung und -umwandlung
  • Dateningestion für die Speicherung
  • Speicherung und Verwaltung von Daten

Um Cloud-DWs zu realisieren, kann ein Unternehmen die Dienste führender Cloud-Plattformanbieter nutzen, nämlich Amazon-AWS, MS-Azure und Google-GCP. Im Folgenden finden Sie eine Zusammenfassung der verschiedenen technologischen Optionen, die für die Einrichtung eines Cloud Data Warehouse zur Verfügung stehen.

  • Rechnen
    • Container, Microservices-basierte Plattform für Datenextraktion, -transformationund -ladung
  • Datenplattform
    • Amazon: S3, RDS, Redshift und andere; GCP: BigQuery, Cloud Storage und andere; MS:BLOB, SQL-DW und andere
  • Daten-Streaming
    • Apache-Kafka
  • Workflow-Orchestrierung und -Verwaltung
    • Chronos, Azkaban, Apache-Airflow, Quartz und andere

Wir bei coMakeIT haben Erfahrung in der Bereitstellung von Data-Flow (ereignisbasierten) Datenmanagement-Plattformen über die Cloud-Plattformanbieter AWS, GCP und Azure.

Für eine Bewertung und Hilfe bei der Umstellung auf die Cloud besuchen Sie bitte unsere Cloud Transformation @ CoMakeIT


Tags:

Verfasst von

Murali Bommineni

Contact

Let’s discuss how we can support your journey.