Dieser Artikel ist in dem kostenlosen Magazin "Data Science in Production" erschienen.
Bei GoDataDriven haben wir einen Open Source First-Ansatz. Wenn es keine schockierend guten Gründe gibt, raten wir immer zur Verwendung (und Implementierung) von Open-Source-Lösungen.
Es ist daher nur natürlich, dass wir dazu neigen, der Open-Source-Gemeinschaft etwas zurückzugeben. Einige dieser Bemühungen haben eine gute Sichtbarkeit (wie Divolte), während andere im Schatten bleiben.
Ich habe mir daher gedacht, dass ich damit beginnen kann, dies zu ändern, indem ich von Zeit zu Zeit die verschiedenen Beiträge zu alten und neuen Open-Source-Projekten unter veröffentliche.
Diese erste Ausgabe beginnt mit Fokko, das zu 4 verschiedenen Projekten beigetragen hat: Druid, Docker-Druid, Airflow und Flink.
- In Druid PR 3481 hat er die Protokolle der INFO-Meldungen korrigiert;
- In Docker-Druid PR 30 hat er den Abschnitt über die Protokollierung in der README erweitert;
- In Airflow PR 2038 hat er Sitzungslecks behoben;
- In Airflow PR 2042 (noch offen) hat er einen Spark-Submit-Operator/Hook hinzugefügt;
- In Flink PR 3077 implementierte er die stochastische Ausreißerauswahl (!);
- In Flink PR 3081 hat er die Flink Machine Learning Bibliothek aufgeräumt (!!).
Als nächstes ist Vincent an der Reihe, der ein ganz neues Projekt, Kadro, erstellt hat. Es handelt sich dabei um einen freundlichen Pandas-Wrapper mit einer besser komponierbaren Grammatikunterstützung. Das Ziel der Bibliothek ist es, einen minimalen Wrapper zu haben, der den meisten Datenrahmenoperationen mehr Ausdruckskraft verleiht, indem er verkettbar ist.
Dann steuerte Bas den Prometheus JMX-Exporter PR 108 (noch offen) bei, um die HBase-Beispielkonfiguration hinzuzufügen.
Schließlich hat meine Wenigkeit NiFi PR 1467 (noch offen) beigesteuert, um die Ausnahmeklasse für fehlgeschlagene Flow-Dateien, die aus InvokeHTTP kommen, hinzuzufügen.
Das war's für die erste Ausgabe. Wie immer stellen wir Data Scientists und Data Engineers ein. Gehen Sie auf
Erfahren Sie mehr über unsere GoDataDriven Open-Source-Beitragsreihe in verschiedenen Ausgaben. Tauchen Sie ein in die
Verfasst von
Giovanni Lanzani
Unsere Ideen
Weitere Blogs
Contact



