Blog
10 Daten-Tools, die Sie im Jahr 2022 im Auge behalten sollten

Wenn wir auf das Jahr 2021 zurückblicken, ist es schwer, es als ein gewöhnliches Jahr zu bezeichnen. Im Bereich der Daten können wir als Unternehmen jedoch einige Vorhersagen für das kommende Jahr treffen. In diesem Blogbeitrag stelle ich Ihnen 10 Daten-Tools vor, die Sie 2022 im Auge behalten sollten.
Datenerstellungs-Tool (DBT)
Ich habe DBT um 2019 herum entdeckt. Mir gefiel die klare Vision, die das Projekt hatte. Durch die Überlagerung von SQL-Ansichten/Tabellen und die automatische Erstellung von Dokumenten/Linien auf der Grundlage dieser Schichten. Wir könnten eine Menge Komplexität aus unseren Transformationspipelines entfernen. Gleichzeitig konnten wir dem Unternehmen eine klare Beschreibung der von uns erstellten Datenschichten liefern.
Die Kombination aus SQL und Spark schien besonders vielversprechend zu sein. Allerdings brauchte sie etwas Liebe. Wir begannen, einige Korrekturen für den dbt-spark Connector beizusteuern, die wir brauchten, um ihn tatsächlich in Kundenprojekten einsetzen zu können. Damals hat unser Mitarbeiter Fokko Driesprong den größten Teil der Arbeit geleistet. Aber in letzter Zeit hat Cor Zuurmond damit begonnen, zum dbt-sqlserver Connector beizutragen. Damit können wir dbt in Kombination mit dem MSSql-Server verwenden. Und Daniel Heres initiierte den dbt-athena Connector.
DBT hat vor ein paar Wochen die Version 1.0 erreicht. Dies markiert den Beginn der nächsten Phase dieses Projekts. Und damit kann ich nur vermuten, dass das Tool eine viel breitere Akzeptanz findet, mehr Funktionen in DBT Cloud (ihrem SaaS-Angebot) und eine bessere Integration mit anderen Tools.
Besuchen Sie www.getdbt.com/ für weitere Informationen.
Soda
Als nächstes ist Soda an der Reihe. Wir begannen etwa zu der Zeit, als wir DBT entdeckten, mit Soda zu sprechen. Ich erinnere mich an ein Gespräch mit Maarten Masschelein, bei dem wir überlegten, wie wir dieses Tool einsetzen könnten. Soda hatte einen neuen Ansatz für die Datenqualität. Im Gegensatz zu einigen anderen Open-Source-Tools für Datenqualität lag der Schwerpunkt eindeutig auf der Darstellung von Datenqualitätsmetriken für Geschäftsanwender und der Möglichkeit, Warnmeldungen usw. zu definieren. Etwas, das meiner Meinung nach bei den anderen Optionen fehlte. Glücklicherweise war die Open-Source-Komponente (soda-core) immer noch sehr entwicklerfreundlich. Dieser "zweiseitige Ansatz" ist wahrscheinlich das, was mir an Soda am besten gefällt.
Wir sind vor einigen Wochen (offiziell) eine Partnerschaft mit Soda eingegangen und haben gemeinsam soda-spark entwickelt, mit dem Sie Soda in Ihre Spark-Umgebung integrieren können. Unser Mitarbeiter Cor Zuurmond hat dieses Paket zusammen mit Vijay Kiran (von Soda) entwickelt.
Besuchen Sie www.soda.io/ für weitere Informationen.
Databricks
Ich denke, Databricks braucht keine Einführung mehr. Wir setzen Databricks bei unseren Kunden häufig ein. Es ist eine sehr gute verwaltete Spark-Lösung. Warum ist Databricks also auf dieser Liste? Im Jahr 2022 werden sie 2 sehr spannende neue Produkte vorstellen.
Die erste ist Delta Live Tables, die eine neue Methode zur Definition von Datenumwandlungspipelines einführt. Mir gefällt vor allem der SQL-Ansatz (der sich ähnlich wie DBT anfühlt), aber ich würde ihn nur für Streaming-Anwendungsfälle empfehlen (die DBT nicht unterstützt). Streaming-Pipelines sind derzeit noch kompliziert zu implementieren und zu pflegen. Und genau hier glänzt Delta Live Tables mit dem Konzept der kontinuierlichen Pipelines. Dabei werden die Tabellen aktualisiert, sobald sich die Eingabedaten ändern.
Das zweite Produkt, das Sie im Auge behalten sollten, ist Unity Catalog. Intern experimentieren wir mit dem Delta Sharing Server. Insbesondere Kris Geusebroek ist dabei. Delta Sharing ist sehr vielversprechend und wird meiner Meinung nach den Hive Metastore, den wir alle kennen, ersetzen. Was dem OpenSource Sharing Server jedoch fehlt, sind ACLs. Das ist es, was Unity Catalog verspricht, hinzuzufügen. Die Möglichkeit, ACLs für Tabellen/Views usw. an einem einzigen Ort zu definieren, würde die Bereitstellung in größeren Unternehmensumgebungen wirklich erleichtern.
Airbyte
In der OpenSource-Welt war die Integration mit älteren Quellsystemen schon immer ein schwieriges Thema. Während wir in der Vergangenheit typischerweise benutzerdefinierte Hooks/Operatoren für Airflow entwickelt haben, würden wir gerne von den damit verbundenen Kosten wegkommen. Denn benutzerdefinierte Integrationen erweisen sich auf lange Sicht als schwierig zu pflegen. Kommerzielle Angebote wie Fivetran funktionieren sehr gut, haben aber nur begrenzte Anpassungsmöglichkeiten. Airbyte versucht, dieses Problem zu lösen, indem es das Beste aus beiden Welten vereint. Es ist Open Source und bietet dennoch ein Saas-Angebot.
Die Open-Source-Komponente wird schnell weiterentwickelt. Es werden fast täglich neue Quellen und Ziele veröffentlicht. Das Tool selbst muss noch überarbeitet werden, da zum Beispiel die Authentifizierung noch fehlt. Da das Unternehmen jedoch am 20. Dezember in einer Serie-B 150 Millionen Dollar eingeworben hat, bin ich zuversichtlich, dass sich das bald ändern wird.
Besuchen Sie airbyte.io/ für weitere Informationen.
Marquez
Datenkataloge sind eine schwierige Angelegenheit. Es gibt eine ganze Reihe von Open-Source-Angeboten, die aber oft stark von Kafka, HBase, Neo4j oder anderen abhängig sind. Ich bin immer noch auf der Suche nach einer leichtgewichtigen Lösung. Und habe mich vorerst für Marquez entschieden. Ich würde Marquez in Situationen verwenden, in denen die Datendokumente von DBT nicht mehr ausreichen. Marquez leistet einen aktiven Beitrag zum OpenLineage-Projekt, dessen Ziel es ist, einen Standard für Tools zum Export/Import von Data Lineage einzuführen. OpenLineage verfügt über Integrationen für Spark, DBT und Airflow. Aber die Erstellung einer neuen Integration scheint nicht allzu kompliziert zu sein.
Besuchen Sie marquezproject.ai/ für weitere Informationen.
Metabase
Im Bereich der Open-Source-Berichte gefällt mir Metabase am besten. Sie ermöglicht es Benutzern, Fragen zu definieren. Diese sind im Grunde eine Methode zur Definition von Geschäfts-KPIs. Für jede Frage können verschiedene Visualisierungen erstellt werden, so dass sie in verschiedenen Berichten wiederverwendet werden kann.
Metabase selbst verfügt über einen Abfrage-Editor, mit dem auch SQL-Neulinge Abfragen erstellen können, und ermöglicht die Einbettung in interne/externe Portale. Außerdem sieht es großartig aus, was (meiner Meinung nach) sehr wichtig für ein BI/Dashboarding-Tool ist.
Besuchen Sie metabase.com/ für weitere Informationen.
Datadog
Die Überwachung ist eine wichtige Funktion in jeder Datenplattform. In der Regel bin ich mit den nativen Cloud-Optionen für die Überwachung nicht sehr zufrieden. Sie sind in der Regel schwierig einzurichten und zudem teuer. Azure Log Analytics kostet beispielsweise €2,6 pro GB gegenüber €0,17, wenn ich ein GB in einem Azure Blob Store speichere. Das ist ein saftiger Aufpreis.
In Azure liest Datadog die Metriken direkt von den Diensten, ohne dass Log Analytics erforderlich ist. Außerdem dauert die Einrichtung weniger als 5 Minuten. Es ist kinderleicht. Sobald die Daten in Datadog verfügbar sind, können Sie selbst Dashboards erstellen oder eines der vorgefertigten Dashboards auswählen. Auch das ist eine echte Zeitersparnis.
Besuchen Sie datadoghq.com/ für weitere Informationen.
Präfekt
Für unsere fortgeschrittenen Planungsanforderungen wählen wir als Unternehmen oft Airflow als Tool unserer Wahl. Das ist immer noch so, denn wenn ich Airflow mit Prefect oder Dagster vergleiche, ist es aufgrund der Hooks und Operatoren klar im Vorteil. Da sich Airbyte jedoch gut entwickelt, denke ich, dass Sie in Zukunft nur noch einen Operator (den AirbyteOperator) benötigen werden. Daher lautet meine Vorhersage für 2022 Prefect und nicht Airflow.
Wenn ich mir Prefect anschaue, finde ich die "Verified by Prefect"-Partnerintegrationen wirklich schön. Außerdem scheint die Entwicklung von Orion (Prefect 2.0) die Benutzerfreundlichkeit und die Erfahrung der Entwickler bei der Entwicklung Ihrer Dags weiter zu verbessern.
Besuchen Sie prefect.io/ für weitere Informationen.
YOLO: DataFusion
Ich schließe diesen Blogbeitrag mit zwei Außenseitern, denen ich die Daumen drücke. Der erste ist DataFusion. Ich habe 2015 angefangen, mit Spark zu arbeiten. Jetzt ist es 2021 (fast 2022) und ich verwende Spark immer noch. Obwohl ich nicht viel zu meckern habe, wäre es schön, einen Nachfolger von Spark zu haben und zu sehen, was ein anderer Ansatz uns bringen könnte (in Bezug auf die Leistung). Wenn ich jetzt eine Wette eingehen müsste, würde ich DataFusion wählen. Es ist eine Abfrage-Engine, die in Rust geschrieben wurde und auf Apache Arrow aufbaut. Ich denke, damit sind die meisten Punkte erfüllt. Unser Kollege Daniel Heres trägt aktiv dazu bei, und das Projekt selbst ist sehr aktiv.
Weitere Informationen finden Sie unter arrow.apache.org/datafusion/.
YOLO: Polare
Der zweite Außenseiter ist Polars. Es hat viele der gleichen Bestandteile wie DataFusion (Rust, Apache Arrow), soll aber Pandas ersetzen. Ich habe den gleichen Eindruck wie bei DataFusion, viele Commits/Aktivitäten in den Repos. Und es scheint unglaublich schnell zu sein. Ich kann es kaum erwarten, zu sehen, wohin sich das Projekt entwickelt. Schauen Sie sich unbedingt den Blogpost von Vincent Warmerdam über Polars an.
Besuchen Sie pola.rs/ für weitere Informationen.
Unsere Ideen
Weitere Blogs
Contact



