TLDR; Airbyte ist ein ELT-Tool für die Datenerfassung, das aufgrund seiner Open-Source-Natur, seines einfachen Codes und seiner Community-Orientierung attraktiv ist. Es verringert den Aufwand für benutzerdefinierte Entwicklung, die zum Laden und Speichern von Daten erforderlich ist. Dieser Leitfaden stellt seine Funktionen vor.
Dieser Blog ist Teil einer mehrteiligen Serie über Airbyte. Im ersten Teil stellen wir das Produkt vor und folgen der Anleitung für die lokale Entwicklung. In den folgenden Teilen geht es um die Einrichtung einer Verbindung zwischen einem Quellsystem und einem Ziel und schließlich um die Bereitstellung von Airbyte in der Cloud.
Airbyte
Es gibt einen neuen Mitbewerber im ELT-Bereich: Airbyte. Airbyte wurde 2020 von zwei französischen Unternehmern gegründet und hat sich zum Ziel gesetzt, "Datenintegrationspipelines zu einer Massenware zu machen". Es erhielt mehr als 180 Millionen Dollar an Finanzmitteln und den begehrten "Einhorn-Status" (Startups mit einer Bewertung von über 1 Milliarde Dollar) Ende 2021. Der Fokus liegt darauf, "das Datenteam von der Pflege des Codes für die Datenaufnahme zu entlasten, indem es ein 'no-code' Tool anbietet, um Ihre Quellsysteme mit Ihrem Data Warehouse zu verbinden." Airbyte nutzt die Open-Source-Community, um benutzerdefinierte Konnektoren für beliebte Quell- und Zielsysteme zu erstellen. Derzeit werden über 100 Konnektoren unterstützt, und die Zahl wächst dank der Beiträge der Community weiter.
Der Fokus liegt darauf, "das Datenteam von der Pflege des Codes für die Ingestion zu entlasten, indem ein 'no-code' Tool zur Verbindung Ihrer Quellsysteme mit Ihrem Data Warehouse bereitgestellt wird."
Airbyte und die ELT-Verschiebung
In letzter Zeit wechseln immer mehr Unternehmen von ETL zu ELT.
Um genau zu verstehen, was diese Verschiebung ausgelöst hat, müssen wir uns die Geschichte der Datenaufnahme und -umwandlung ansehen, aber das ist etwas für einen zukünftigen Beitrag. Das Wesentliche ist: Wir beginnen damit, die Daten aus den Quellsystemen (wieder) direkt in das Data Warehouse zu verschieben und sie dort für alle Transformationen zu belassen. Dies wird "ELT" genannt, kurz für Extract Load Transform. Es ist das Gegenstück zu "ETL": (Extract, Transform, Load). Airbyte ist ein Teil dieses ELT-Paradigmas. Es wurde entwickelt, um Daten nahtlos aus einer Quelle zu extrahieren und in ein Data Warehouse zu laden (obwohl es noch mehr Optionen gibt). Warum sollten Sie Airbyte dafür verwenden, fragen Sie sich? Weil die Entwicklung und Verwaltung maßgeschneiderter Datenpipelines kostspieliges technisches Wissen voraussetzt. Ein häufig verwendetes Tool wie Airflow erfordert das Schreiben von benutzerdefiniertem Python-Code zum Laden und Speichern von Daten. Das bietet ein höheres Maß an Anpassungsfähigkeit, kann aber schnell komplex werden. Der No-Code-Ansatz von Airbyte versucht, den Umfang des erforderlichen benutzerdefinierten Codes zu verringern. Je mehr Sie den Aufbau und die Pflege von benutzerdefinierten Systemen für die Datenaufnahme und -umwandlung vermeiden können, desto mehr Zeit können Sie für die Gewinnung von Erkenntnissen für Ihr eigentliches Geschäft aufwenden. Schließlich ist die Verwaltung von Datenpipelines nur ein Mittel zum Zweck. Der wahre Wert liegt in den Erkenntnissen, die aus den Daten gewonnen werden.
Je mehr Sie den Aufbau und die Pflege von benutzerdefinierten Systemen für die Datenaufnahme und -umwandlung vermeiden können, desto mehr Zeit können Sie für die Gewinnung von Erkenntnissen für Ihr eigentliches Geschäft aufwenden.
Airbyte bietet eine no-code/low-code Lösung an, um den Entwicklungsaufwand zu verringern. Die Zielgruppe scheint ein Startup mit einem kleinen Team zu sein, dem die Zeit und das Geld für qualifizierte Ingenieure und komplizierte maßgeschneiderte Pipelines fehlen.
Airbyte lokal einrichten
Genug geredet. Lassen Sie uns das Ding einrichten. Um es lokal bereitzustellen, können wir der Anleitung Airbyte Local Deployment folgen. Sie erfordert die Installation von Git, Docker und Docker-Compose.
Führen Sie dann diese Befehle aus:
git clone https://github.com/airbytehq/airbyte.git
cd airbyte
docker-compose up
Wenn wir uns den Inhalt der Datei docker-compose ansehen, können wir erkennen, dass Airbyte aus mehreren Komponenten besteht: Datenbank, Scheduler, Worker, Server und Orchestrator. Wir werden diese Teile später in der Serie noch näher erläutern.
Im Moment interessiert uns nur, ob die Weboberfläche funktioniert. Wenn docker-compose up funktioniert, sollte die Weboberfläche unter http://localhost:8000 verfügbar sein.
Gut zu gehen!
Quellen und Zielorte
Wie gehen wir also vor? Das Konzept ist ganz einfach: Airbyte stellt eine Verbindung zu einer
Als nächstes benötigt Airbyte ein Ziel. Auch hier kann es sich um eine von mehreren Arten von Zielen handeln, aber im ELT-Fluss ist es sinnvoll, ein Cloud Data Warehouse wie Google Big Query oder Snowflake zu verwenden. Und auch hier geben Sie nur die Anmeldeinformationen ein, wählen einige Optionen, wie die Daten geladen werden sollen, und überprüfen sie.
Starten einer Synchronisation
Jetzt, da wir eine Quelle und ein Ziel eingerichtet haben, können wir mit der Ausführung von Aufträgen beginnen, die die Daten einlesen. Airbyte verfolgt diese Aufträge in der Benutzeroberfläche, so dass Sie einen Überblick über den Synchronisierungsverlauf erhalten. Airbyte kann nun damit beginnen, Daten von der Quelle zum Ziel zu senden, ohne eine einzige Zeile Code zu schreiben!
Fazit
Wir haben die Ziele von Airbytes erörtert, die darin bestehen, mit von der Community erstellten Konnektoren einen no-code Dateningestions-Workflow anzubieten. Dann folgten wir der Anleitung für die lokale Bereitstellung und besprachen den Quell- und Zielkonnektor. Mit Airbyte kann selbst ein Teammitglied mit begrenzten technischen Kenntnissen einen automatisierten Ingestion-Flow erstellen.
Wird dies für alle Anwendungsfälle passen? Sicherlich nicht, aber das Schöne am Airbyte-Modell ist, dass Sie selbst zum Konnektor beitragen können, indem Sie sich der Open-Source-Community anschließen. Airbyte rühmt sich, dass Sie mit seinem Connector Development Kit (CDK) "Konnektoren in weniger als 2 Stunden erstellen" können. Es bleibt abzuwarten, ob es in der Praxis so einfach ist, wie behauptet wird, aber es ist auf jeden Fall eine Möglichkeit.
Dies war nur ein kurzer Überblick über Airbyte. Im nächsten Teil der Serie werden wir tiefer in die Datensynchronisation eintauchen. Bis dahin!
Verfasst von
Lasse Benninga
Unsere Ideen
Weitere Blogs
Contact



