Blog

GoDataDriven Open Source Beitrag: Ausgabe April 2018

Giovanni Lanzani

Giovanni Lanzani

Aktualisiert Oktober 21, 2025
3 Minuten

Willkommen bei der Open Source bei GoDataDriven, Ausgabe April 2018.

Kris hat an seinem docker-kafka-Projekt gearbeitet und PR 6 und 7 beigesteuert, um die Kafka-Version zu aktualisieren und openjdk anstelle von Oracle Java zu verwenden. Sein docker-kafka Projekt, das mit Zookeeper in sich geschlossen ist, ist von unschätzbarem Wert, wenn Sie loslegen wollen. Die Tatsache, dass Sie die Instanz über den Namen statt über die IP finden können, macht es auch zu einem großartigen Kandidaten, wenn Sie es in einer Schulungsumgebung verwenden möchten (wo nicht alle Studenten mit den Feinheiten von Docker und IPs vertraut sind).

Kris hat es nicht dabei belassen und PR 13 zu Scruid beigesteuert, um das Antwort-Parsing zu verbessern!

Henk hat dann diese Welt ein Stück besser gemacht, indem er die Dokumentation unseres Tools verbessert hat, um eine Trainingsumgebung auf GCP (Google Cloud Platform) bereitzustellen.

Fokko stattdessen (er sitzt nicht gerne untätig herum, oder?) trug mit PR 26793 zu Homebrew bei, um Scala auf 2.11.12 zu aktualisieren (ich meine, können Sie sich vorstellen, dass Fokko eine veraltete Version von Scala benutzt? ). Er setzte die Arbeit an Airflow mit PR 3252 und 3201 fort. Zum Abschluss verbesserte er Divolte mit PR 203, 215 und 216.

Rodrigo hat, obwohl sein PR noch darauf wartet, zusammengeführt zu werden, PR 10913 zu scikit-learn beigetragen, um den Umgang mit ungesehenen Labels im MultiLabelBinarizer zu ermöglichen!

Tim hat ein Paket zur Verfügung gestellt, mit dem Sie auf Ihre Google Fit-Daten zugreifen können. Es trägt den treffenden Namen py_google_fit!

Zum Abschluss der Show habe ich auch versucht, Airflow zu verbessern: Zunächst habe ich hmsclient, ein Python-Paket zur Interaktion mit dem Hive-Metaspeicher, als Open Source bereitgestellt. Airflow verwendete nämlich einen veralteten Client für alle Interaktionen mit dem Metaspeicher. Dies hatte zur Folge, dass der Teil von Airflow, dermit dem Metastore interagiert, nicht mit Python 3 kompatibel war. Mit PR 3239 - von mir - ist das nun behoben.

Nicht dieser Metastore!

Ohne die Welt der "großen" Daten zu verlassen, habe ich auch PR 19 zu findspark beigetragen, so dass PYSPARK_PYTHON jetzt eine respektierte Umgebungsvariable ist.

Das war's für diese Ausgabe! Vergessen Sie nicht, dass wir neue Mitarbeiter suchen! Vor allem, wenn Sie ein Software-Ingenieur sind, der gerne in den Datenbereich wechseln möchte, melden Sie sich bei uns!

Und wenn Sie den ganzen Monat über mehr erfahren möchten, folgen Sie mir auf Twitter: Ich bin dort gglanzani!

Verfasst von

Giovanni Lanzani

Contact

Let’s discuss how we can support your journey.