Blog

GoDataDriven Open Source Beitrag: Ausgabe Februar 2017

Giovanni Lanzani

Aktualisiert Januar 28, 2026

3 Minuten

Dieser Artikel ist in dem kostenlosen Magazin "Data Science in Production" erschienen.

Bei GoDataDriven haben wir einen Open Source First-Ansatz. Wenn es keine schockierend guten Gründe gibt, raten wir immer zur Verwendung (und Implementierung) von Open-Source-Lösungen.

Es ist daher nur natürlich, dass wir dazu neigen, der Open-Source-Gemeinschaft etwas zurückzugeben. Einige dieser Bemühungen haben eine gute Sichtbarkeit (wie Divolte), während andere im Schatten bleiben.

Ich habe mir daher gedacht, dass ich damit beginnen kann, dies zu ändern, indem ich von Zeit zu Zeit die verschiedenen Beiträge zu alten und neuen Open-Source-Projekten unter veröffentliche.

Diese erste Ausgabe beginnt mit Fokko, das zu 4 verschiedenen Projekten beigetragen hat: Druid, Docker-Druid, Airflow und Flink.

In Druid PR 3481 hat er die Protokolle der INFO-Meldungen korrigiert;
In Docker-Druid PR 30 hat er den Abschnitt über die Protokollierung in der README erweitert;
In Airflow PR 2038 hat er Sitzungslecks behoben;
In Airflow PR 2042 (noch offen) hat er einen Spark-Submit-Operator/Hook hinzugefügt;
In Flink PR 3077 implementierte er die stochastische Ausreißerauswahl (!);
In Flink PR 3081 hat er die Flink Machine Learning Bibliothek aufgeräumt (!!).

Als nächstes ist Vincent an der Reihe, der ein ganz neues Projekt, Kadro, erstellt hat. Es handelt sich dabei um einen freundlichen Pandas-Wrapper mit einer besser komponierbaren Grammatikunterstützung. Das Ziel der Bibliothek ist es, einen minimalen Wrapper zu haben, der den meisten Datenrahmenoperationen mehr Ausdruckskraft verleiht, indem er verkettbar ist.

Dann steuerte Bas den Prometheus JMX-Exporter PR 108 (noch offen) bei, um die HBase-Beispielkonfiguration hinzuzufügen.

Schließlich hat meine Wenigkeit NiFi PR 1467 (noch offen) beigesteuert, um die Ausnahmeklasse für fehlgeschlagene Flow-Dateien, die aus InvokeHTTP kommen, hinzuzufügen.

Das war's für die erste Ausgabe. Wie immer stellen wir Data Scientists und Data Engineers ein. Gehen Sie aufzu unserer Karriereseite, wenn Sie interessiert sind. Sie erhalten viele Möglichkeiten, der Gemeinschaft etwas zurückzugeben.

Erfahren Sie mehr über unsere GoDataDriven Open-Source-Beitragsreihe in verschiedenen Ausgaben. Tauchen Sie ein in die Ausgabe vom April 2017, in der wir bedeutende Fortschritte bei Open-Source-Technologien diskutieren. Entdecken Sie die Ausgabe vom August 2017, in der wir wichtige Beiträge für die Community hervorheben. Gewinnen Sie wertvolle Perspektiven aus unserer Ausgabe vom Dezember 2017, in der wir Innovationen und Kooperationen im Open-Source-Ökosystem vorstellen. Tauchen Sie ein in die Ausgabe vom Februar 2017 mit ausführlichen Diskussionen über neue Trends und Technologien. Sehen Sie sich unsere Beiträge aus Q3 2019 an, die unser kontinuierliches Engagement widerspiegeln, die Grenzen von Open-Source-Initiativen zu erweitern. Entdecken Sie die bahnbrechenden Beiträge aus den Ausgaben vom Juli 2017, Juni 2017, März 2017, Mai 2017 und Oktober 2017, die jeweils einzigartige Einblicke und wichtige Beiträge für die Open-Source-Gemeinschaft bieten.