Blog

GoDataDriven Open Source Beitrag: Ausgabe Juli 2018

Giovanni Lanzani

Aktualisiert Oktober 21, 2025
3 Minuten

Willkommen bei der Open Source bei GoDataDriven, Ausgabe Juli 2018.

Wir beginnen mit Tünde und Kris, die eine phänomenale Arbeit geleistet haben, indem sie Unterstützung für partitionierte Hive-Tabellen mit Partitionen mit unterschiedlichen Datenformaten in Spark hinzugefügt haben. Das Ergebnis ihrer Arbeit finden Sie in PR 21893. Ihre Arbeit ist das Ergebnis von drei Sitzungen, die sie während unserer GoDataDrivenFreitage hatten. Dazu gehörten Entschlossenheit, Geschicklichkeit und ein bisschen Detektivarbeit im gesamten Spark-Code (sie haben 7 Dateien angefasst und am Ende mehr als 500 Zeilen Code hinzugefügt).

Die Spark-Mitarbeiter zögern jedoch, sie zusammenzuführen. Wenn Sie die Funktion ebenfalls für wichtig und für nützlich halten, lassen Sie Ihre Stimme hören!

Vincent hat Asekuro, ein Tool zur Vereinfachung des Testens von Jupyter-Notizbüchern, als Open Source zur Verfügung gestellt. Dazu gehören Notizbücher, die die %load magic[^1.]

Fokko lenkte dann seine Aufmerksamkeit auf den Event Hub-Spark Connector von Microsoft und öffnete PR 356, 359 und 360.

Henk entdeckte ein weiteres Tool von Microsoft, DoWhy, eine Bibliothek, mit der sich kausale Effekte leicht abschätzen lassen. Er hat sofort PR 3 und 4 beigesteuert.

Julian hingegen hat auch einen ziemlich großen PR in Airflow eröffnet, nämlich PR 3560. In schiebt er snakebite raus und hdfs3 rein, um die Kompatibilität von Airflow mit Python 3 zu verbessern.

Ein Experte, wenn es um die Vermeidung von Schlangenbissen geht

Zum Abschluss: Ich habe PR 270 und 286 zu dask-ml beigesteuert - obwohl der erste wohl nie zusammengeführt wird, obwohl er ein offenes Problem löst. Beide PRs zeigen eine schöne Verwendung von Dekoratoren, wobei der letzte auch zeigt, wie man Kontextmanager mit yield definiert.

Das war's für diese Ausgabe! Vergessen Sie nicht, dass wir neue Mitarbeiter suchen! Vor allem, wenn Sie ein Software-Ingenieur sind und gerne in den Datenbereich wechseln möchten, sollten Sie sich bei uns melden, denn wir bieten ab Oktober eine Ausbildung an .

Und wenn Sie den ganzen Monat über mehr erfahren möchten, folgen Sie mir auf Twitter: Ich bin dort gglanzani!


  1. Die Magie wird verwendet, um das Laden der Lösung der Übungen ohne viel Replikation zu erleichtern.

Verfasst von

Giovanni Lanzani

Contact

Let’s discuss how we can support your journey.