Blog

GoDataDriven Open Source Beitrag: Ausgabe März 2017

Giovanni Lanzani

Aktualisiert Januar 28, 2026

3 Minuten

Wie im letzten Monat angekündigt, versuchen wir, alle Beiträge zu sammeln, die wir in der Open-Source-Welt leisten, entweder zu bestehenden oder zu neuen Projekten.

Diese zweite Ausgabe beginnt mit Fokko, der zu 5 verschiedenen Projekten beigetragen hat: Druid, Docker-Druid, Airflow, Flink und scalatra-sample-app.

In Druid hat er die Dokumentation mit PR 3973 aktualisiert, was das Einlesen des Parquet-Formats in einen Druid-Cluster betrifft;
Dort hat er auch eine fehlerhafte Protokollzeile mit PR 3970 behoben;
In Druid Docker hat er zwei Probleme in PR 33 und 34 behoben, indem er die richtigen Verzeichnisse und Berechtigungen erstellt und eingestellt hat;
In Airflow PR 2042 hat er den spark-submit Operator/Hook um die Integration von YARN erweitert;
In Flink PR 3280 hat er die Dokumentation korrigiert, indem er einen korrekten Verweis gesetzt hat.
Da Fokko ein Scala-Aficionado ist, hat er in der Scalatra-Beispielanwendung TypeParamSupport abgeschafft. Die Eigenschaft wurde veraltet, da die Funktionalität in den Kern integriert wurde. Dies führte zu PR 7 für das Projekt.

Andererseits hat meine Wenigkeit in NiFi eine falsche Beschreibung des UnpackContent-Prozessors in PR 1558 korrigiert und ein Projekt zur Bereitstellung von Google Cloud Engine-Instanzen zur Vereinfachung der Bereitstellung von Klassenzimmer-Schulungen aus der Taufe gehoben.¹. Wir sind in der Tat oft mit vielen Herausforderungen konfrontiert, wenn wir Schulungen anbieten, bei denen Spark eine Rolle spielt:

Wenn wir virtuelle Maschinen (VM) verwenden, können die Benutzer nie ganz erfahren, wie leistungsfähig Spark ist, da ihre Maschinen immer so langsam sind, dass es nicht einmal lustig ist. Hinzu kommt, dass wir mehrere GB erstellen, verwalten und verteilen müssen, da diese VMs nicht klein sind;
Wenn wir den lokalen Modus verwenden, ist die Installation von Spark in allen Konfigurationen unglaublich mühsam, insbesondere , wenn Sie HDFS-Unterstützung wünschen; die Langsamkeit ist immer noch vorhanden, wenn auch in einer weniger schweren Form;
Wenn Sie einen Cluster erstellen, ist es nie schön, ihn zu verteilen, die Pakete zu installieren und die Schlüssel für alle verfügbar zu machen.

Da es mit Google Cloud Engine extrem einfach ist, Cluster zu erstellen, geht das Projekt davon aus, dass Sie genau das verwenden. Dennoch sollte es einfach genug sein, es zu ändern. Ich persönlich arbeite daran, Anaconda + JupyterHub so zu integrieren, dass die Benutzer nicht einmal SSH Zugriff auf den Rechner haben müssen.

Das war's für die zweite Ausgabe. Wie immer stellen wir Data Scientists und Data Engineers ein. Gehen Sie auf zu unserer Karriereseite, wenn Sie interessiert sind. Sie erhalten viele Möglichkeiten, der Gemeinschaft etwas zurückzugeben.

Erfahren Sie mehr über unsere GoDataDriven Open-Source-Beitragsreihe in verschiedenen Ausgaben. Tauchen Sie ein in die Ausgabe vom April 2017, in der wir bedeutende Fortschritte bei Open-Source-Technologien diskutieren. Entdecken Sie die Ausgabe vom August 2017, in der wir wichtige Beiträge für die Community hervorheben. Gewinnen Sie wertvolle Perspektiven aus unserer Ausgabe vom Dezember 2017, in der wir Innovationen und Kooperationen im Open-Source-Ökosystem vorstellen. Tauchen Sie ein in die Ausgabe vom Februar 2017 mit ausführlichen Diskussionen über neue Trends und Technologien. Sehen Sie sich unsere Beiträge aus Q3 2019 an, die unser kontinuierliches Engagement widerspiegeln, die Grenzen von Open-Source-Initiativen zu erweitern. Entdecken Sie die bahnbrechenden Beiträge aus den Ausgaben vom Juli 2017, Juni 2017, März 2017, Mai 2017 und Oktober 2017, die jeweils einzigartige Einblicke und wichtige Beiträge für die Open-Source-Gemeinschaft bieten.