Blog
Von Tabellenkalkulationen zu automatisierten Datenpipelines - und wie dies mit Unterstützung von Google Cloud erreicht werden kann

CSV- und XLSX-Dateien sind eines der gängigsten Dateiformate, die in der Wirtschaft zum Speichern und Analysieren von Daten verwendet werden. Leider ist ein solcher Ansatz nicht skalierbar und es wird immer schwieriger, allen Teammitgliedern Zugang zu einer gemeinsamen Datei zu verschaffen, in der sie zusammenarbeiten und die Ergebnisse ihrer Arbeit mit verschiedenen Teams teilen können.
Sicherlich gibt es Lösungen für die Implementierung in Tabellenkalkulationsdateien in Echtzeit, aber es ist immer noch schwierig, Daten mit verschiedenen Teams auszutauschen, sie zu verarbeiten oder über das Zieldatenformat zu entscheiden, insbesondere wenn Sie die automatische Datenformatierung verwenden.
Wo sollen wir anfangen?
Beim ersten Aspekt geht es um die Vorbereitung der Landschaft aller verarbeiteten Tabellenkalkulationen. Wir beginnen mit dem Wichtigsten: die Daten zu verstehen, zu prüfen, welche Informationen für die Zielbenutzer wichtig sind und daher möglicherweise die Menge der verarbeiteten Daten durch Löschen ungenutzter Daten zu reduzieren.
Im zweiten Teil geht es darum, zu verstehen, wie man neue Arbeitsblätter erstellt - können wir diesen Schritt automatisieren? Kann er nur von Benutzern manuell durchgeführt werden? Wie häufig werden die Daten hochgeladen? Wie können wir überprüfen, ob es Änderungen im Datenschema gibt?
Wenn wir die Logistik definiert haben und wissen, was die Eingabe und die gewünschte Ausgabe sein wird, können wir zum nächsten Schritt übergehen , um zu definieren, wie wir die Daten verarbeiten, z.B. einige Aggregationen erstellen, die Daten in der Zieldatenbank oder dem Zielspeicher speichern, die Daten bereinigen und wie wir die Ausgabe an die Zielbenutzer liefern.
Wir müssen wissen, ob es Tools gibt, die von verschiedenen Teams zur weiteren Analyse oder Visualisierung von Daten verwendet werden. Wenn die Benutzer eine Lösung verwenden, könnte es sich lohnen, sie in unseren neuen Prozess zu implementieren, um den Onboarding-Prozess der Benutzer zu vereinfachen.
Der letzte Schritt besteht darin, eine Überwachungsebene hinzuzufügen. Wer kann bei Problemen mit den Quelldaten eingreifen und wie sollten wir die Analysten benachrichtigen? Wie können wir die Datenqualität überprüfen? Was sollten wir tun, um menschliche Fehler im Falle eines manuellen Prozesses zu vermeiden? Wir sollten Metrik-Reporter in unsere Anwendung und Abfragen implementieren, um fehlerhafte Datensätze oder solche mit zu unterschiedlichen Daten zu erkennen. Auf der Grundlage dieser Erkenntnisse können wir Warnmeldungen und Dashboards erstellen.
Der mehrstufige Prozess
Eine öffentliche Cloud wie Google Cloud Platform hilft Unternehmen, ihre Datenpipelines zu verbessern und schnell von der lokalen Excel-Entwicklung zu skalierbaren Tools zu wechseln. Das macht die Arbeit schneller, effizienter und ohne menschliche Fehler oder Probleme bei der Datenformatierung.
Im ersten Schritt geht es um die Aufnahme von Daten. Der perfekte Ort, um rohe, unverarbeitete Daten zu speichern , ist Google Cloud Storage. Benutzer können Daten dorthin hochladen oder ein Synchronisationsskript zwischen Cloud Storage und einigen entfernten Laufwerken hinzufügen. Hier beginnen wir die Reise mit der Prozessanpassung und der Datenintegration aus verschiedenen Quellen.
Für Datenverarbeitungspipelines können wir mehrere Lösungen verwenden. Aufgrund der unterschiedlichen Anwendungsfälle in jedem Projekt ist es am besten, ein oder mehrere benutzerdefinierte Python-Skripte zur Datenverarbeitung zu erstellen, während die Skripte selbst mit Tools wie Google Cloud Composer (verwaltetes Apache Airflow), selbst verwaltetem Apache Airflow, Google Cloud Tasks, Google Cloud Scheduler oder sogar einer Mischung aus Cloud Pub/Sub und Cloud Functions geplant werden können.
In unserem Beispielszenario verwenden wir Composer mit Python-Skripten, die auf den Kubernetes-Pods des Composers ausgeführt werden. Das ist die flexibelste Lösung und kann in Zukunft leicht erweitert werden.
Als letzter Teil der CSV- und XLSX-Verarbeitungsplattform müssen wir die verarbeiteten Daten irgendwo einspeisen. Das hängt von den genauen Anwendungsfällen ab, von denen die häufigsten durch Einfügen von Daten in
Und nicht zuletzt muss alles von der Infrastructure-as-a-Code verwaltet werden. Eine Mischung aus Terraform und CICD-Tools wie GitHub Actions oder GitLab Ci hilft dabei, dies schnell umzusetzen und bietet Möglichkeiten zur einfachen Verwaltung der Infrastruktur. Wenn Sie mehr über Terraform lesen möchten, lesen Sie unseren Blogbeitrag "Terraform your Cloud Infrastructure".
Wir müssen auch die Überwachungsschicht erwähnen. Sie wird von
Automatisieren Sie die Arbeit und vereinfachen Sie die Prozesse mit Google Cloud
Ein weiterer Vorteil dieser Lösung ist, dass sie nicht teuer ist. Sie bietet Hochverfügbarkeit und kann je nach den Bedürfnissen des Unternehmens und der Komplexität der nächsten Aufgaben, die von der Verarbeitungsplattform umgesetzt werden müssen, einfach hochskaliert werden. Hier ist ein Beispiel dafür, wie wir schnell von der lokalen Excel-Entwicklung zur automatisierten Cloud-Umgebung wechseln können, um die Datenverwaltung zu vereinfachen und mit der datengesteuerten Entwicklung in der Cloud zu beginnen.

Möchten Sie Ihre Tabellenkalkulationsdateien in automatisierte Datenpipelines mit Google Cloud einbinden? Lassen Sie uns darüber sprechen, kontaktieren Sie uns!
Verfasst von
Albert Lewandowski
Unsere Ideen
Weitere Blogs
Contact



