Blog
Starten Sie Ihre Karriere als Analytikingenieur

Möchten Sie in die aufregende Welt der Analysetechnik einsteigen oder Ihre Karriere so umgestalten, dass Sie leistungsstarke Datenerkenntnisse nutzen können? Dieser Weg kann entmutigend erscheinen, denn es gibt eine Vielzahl von Tools und Technologien zu beherrschen. Mit der richtigen Herangehensweise können Sie jedoch mit frei verfügbaren Ressourcen ein solides Know-how und ein überzeugendes Portfolio aufbauen.
Dieser Leitfaden führt Sie durch die Einrichtung einer modernen Datenumwandlungspipeline unter Verwendung öffentlich zugänglicher Datensätze und Open-Source-Tools und bietet Ihnen die Möglichkeit, Ihre Fähigkeiten zu entwickeln und zu demonstrieren.
Moderne Datentransformationen: Ihr unverzichtbares Toolkit
Bevor wir in das Projekt eintauchen, lassen Sie uns einen kurzen Blick auf die Kernkomponenten der Datenumwandlungspipeline werfen, die wir aufbauen werden. Das Schöne an dieser Pipeline ist ihre Zugänglichkeit. Viele Komponenten sind kostenlos oder als Open-Source-Versionen erhältlich, die sich perfekt zum Lernen eignen.
-
Data Warehouse: Google BigQuery
Ein hoch skalierbares, serverloses und kostengünstiges Cloud Data Warehouse. Wir werden seine öffentlichen Datensätze nutzen, die bis zu einer bestimmten Grenze kostenlos abgefragt werden können, was es ideal zum Lernen macht.
-
Transformation: dbt (Datenerstellungstool)
dbt ermöglicht es Datenanalysten und Ingenieuren, Daten in ihrem Warehouse zu transformieren, indem sie einfach SQL schreiben. Es bringt bewährte Softwareentwicklungsverfahren wie Versionskontrolle, Testen und Dokumentation in den Datenumwandlungs-Workflow ein.
-
Versionskontrolle: Git + GitHub
Git ist für jede kollaborative oder strukturierte Entwicklung unverzichtbar. Mit Git können Sie Änderungen an Ihrem Code verfolgen, während GitHub eine Plattform für das Hosting Ihrer Repositories und die Zusammenarbeit mit anderen bietet.
-
CI/CD: GitHub-Aktionen
Implementieren Sie kontinuierliche Integration und kontinuierliche Bereitstellung direkt in Ihre GitHub-Repositories. Dies wird für die Automatisierung der Tests und der Bereitstellung Ihres dbt-Projekts von entscheidender Bedeutung sein.
Ihr Lernfahrplan: Schritt-für-Schritt-Umsetzung
Hier finden Sie einen strukturierten Ansatz für den Aufbau Ihrer modernen Datenumwandlungspipeline:
0. Voraussetzungen
Wir gehen davon aus, dass Sie mit den unten aufgeführten Themen bereits vertraut sind. Falls nicht, sollten Sie sich auf diese Bereiche konzentrieren, bevor Sie zum nächsten Schritt übergehen.
-
SQL
SQL ist für viele Berufsbezeichnungen von grundlegender Bedeutung, so auch für Analytics Engineers, da es die primäre Sprache ist, die zur Abfrage von in Datenbanken gespeicherten Daten und zur Transformation dieser Daten verwendet wird. Es wird erwartet, dass Sie mit CTEs (Common Table Expressions), JOINs und Window-Funktionen vertraut sind. Wenn Sie mit diesen Bereichen nicht vertraut sind, können Sie sich für Online-Kurse anmelden (DataCamp, Udemy, usw.) oder einen der SQL-Schulungskurse von Xebia besuchen.
-
Versionskontrolle (git)
Die Versionskontrolle ist ein System, das Änderungen an einer Datei oder einer Reihe von Dateien im Laufe der Zeit aufzeichnet, so dass Sie bestimmte Versionen später wieder aufrufen können. Für angehende Analytiker ist das Verständnis der Grundlagen der Versionskontrolle (meist Git) von grundlegender Bedeutung, da sie die gemeinsame Entwicklung von SQL-Abfragen, dbt-Modellen, Python-Skripten und mehr ermöglicht, so dass Teams jede Änderung verfolgen, zu früheren Versionen zurückkehren und Beiträge nahtlos zusammenführen können. In modernen Datenumwandlungspipelines sorgt die Versionskontrolle für Datenqualität, Reproduzierbarkeit, Nachvollziehbarkeit und effiziente Teamarbeit. Es gibt mehrere häufig verwendete Versionskontroll-Tools, darunter GitHub, GitLab und Azure DevOps.
1. Einrichten Ihrer Umgebung (BigQuery & dbt Cloud)
-
BigQuery
Erstellen Sie ein Google Cloud-Konto (es ist kostenlos!). Erstellen Sie ein neues Projekt und aktivieren Sie die BigQuery API. Stellen Sie in der BigQuery-Benutzeroberfläche sicher, dass Sie das Projekt
bigquery-public-dataim Explorer-Fenster sehen können.Erstellen Sie im Abschnitt "IAM und Admin" > "Dienstkonten" ein Dienstkonto und einen JSON-Schlüssel für dieses Dienstkonto. Beachten Sie, dass dieser Schlüssel sensibel ist, also bewahren Sie ihn bitte sicher auf!
-
GitHub
Erstellen Sie ein GitHub-Konto (es ist kostenlos!). Erstellen Sie ein Repository, vorzugsweise öffentlich, damit andere Ihre Fähigkeiten sehen können. Beachten Sie, dass es möglich ist, die Sichtbarkeit Ihres Repositorys zwischen öffentlich und privat zu ändern, so oft Sie wollen.
-
dbt Wolke
Erstellen Sie ein dbt Cloud-Konto (für Einzelpersonen ist es kostenlos!). Erstellen Sie ein neues Projekt, indem Sie "BigQuery" als Warehouse auswählen und die zuvor erstellte JSON-Datei des Servicekontos hochladen. Verbinden Sie Ihr GitHub-Repository mit der dbt Cloud, indem Sie diese Anleitung befolgen. Sie sollten in der Lage sein,
dbt debugerfolgreich aus dem Studio in dbt Cloud auszuführen.
2. Strukturierung Ihrer Datentransformationen (dbt Best Practices)
-
Modell Organisation
Wählen Sie über das Projekt
bigquery-public-dataBigQuery Tabellen aus, die Sie als Quellen verwenden möchten. Hier sind einige interessante Optionen:1.
crypto_bitcoin.transactions: Eine große, sich ständig aktualisierende Tabelle mit Bitcoin-Transaktionen. Diese Quelle bietet Ihnen die Möglichkeit, ein inkrementelles Modell zu erstellen.2.
github_repos.commits: Analysieren Sie die Commit-Aktivität in einem GitHub Repo Ihrer Wahl.3.
wikipedia.pageviews_2025: Schauen Sie sich an, welche Wikipedia-Artikel aktuell sind.Strukturieren Sie Ihr dbt-Projekt mit den Ebenen
staging,intermediateundmartsentsprechend den Empfehlungen von dbt. -
Materialisierungen
Konfigurieren Sie Ihre
dbt_project.yml, indem Sie sorgfältig abwägen, welche Materialisierung (z.B. Tabelle, Ansicht, inkrementell) für jede Schicht Ihrer Modelle am sinnvollsten ist, indem Sie Faktoren wie Transformationskomplexität, Speicherkosten und Häufigkeit der Datenaktualisierung berücksichtigen. -
Tests
Fügen Sie sowohl singuläre als auch generische Tests hinzu, um sicherzustellen, dass Ihre
martsSchicht qualitativ hochwertige Daten enthält. -
Belichtungen
Versuchen Sie, dbt-Exposures hinzuzufügen, um die nachgelagerte Nutzung Ihrer dbt-Modelle zu definieren, insbesondere für Ihre BI-Berichte.
3. Versionskontrolle & CI/CD mit GitHub & GitHub Actions
-
Arbeitsablauf bei der Entwicklung
Nutzen Sie die bewährten Methoden der Versionskontrolle, indem Sie Feature-Zweige und Pull Requests erstellen. Stellen Sie sicher, dass Ihre Commits verwandte Arbeiten und eine klare Commit-Nachricht enthalten.
-
Kontinuierliche Integration (CI)
Fügen Sie einen CI-Job hinzu und konfigurieren Sie "slim CI". Dadurch wird das Testen Ihrer Änderungen bei jeder Pull-Anfrage automatisiert, wodurch die Datenqualität sichergestellt und fehlerhafte Änderungen verhindert werden.
-
Zweigschutz
Fügen Sie eine Zweigschutzregel zu Ihrem
mainZweig hinzu, damit Pull-Anfragen nur dann zusammengeführt werden können, wenn der CI-Job erfolgreich war.
4. Visualisierung Ihrer Einblicke (BI-Tools)
-
Dashboards
Nachdem Ihre Daten von dbt transformiert und validiert wurden, besteht der nächste Schritt darin, das BI-Tool Ihrer Wahl (z.B. Tableau Public, Power BI Desktop - viele bieten kostenlose Versionen oder Testversionen an) mit den von dbt generierten
martsTabellen zu verbinden. Die Erstellung von Dashboards zeigt, dass die in IhrermartsSchicht verfügbaren Daten geschäftliche Fragen beantworten können.
Bonuspunkte
Sie wollen so richtig auftrumpfen! Hier sind einige zusätzliche Optionen, die Sie nutzen können:
-
dbt Kern
Als Alternative zu dbt Cloud können Sie dbt Core verwenden, die Open-Source-Version von dbt. Diese Anleitung bietet einen Schnellstart. Damit können Sie Ihr Wissen über die Einrichtung einer virtuellen Python-Umgebung und Ihre Erfahrung im Umgang mit einer Befehlszeilenschnittstelle (CLI) unter Beweis stellen. VSCode ist eine hervorragende integrierte Entwicklungsumgebung (IDE), die Ihnen den Einstieg erleichtert.
-
CI/CD
Mit GitHub Actions können Sie Ihren eigenen CI-Workflow erstellen, der Ihr dbt-Projekt kompiliert und ausführt. Außerdem können Sie einen Continuous Delivery (CD)-Workflow erstellen, der die dbt Docs als GitHub-Seite veröffentlicht.
-
Formatierer
Verwenden Sie einen SQL-Formatierer für Ihren Code, um einen standardisierten Ansatz für die Formatierung zu gewährleisten. SQLFluff und sqlfmt sind zwei weit verbreitete Optionen.
-
Dev Container und Docker
Kommt Ihr Hintergrund aus anderen Bereichen der Technik, verfügen Sie über Docker-Kenntnisse? Eine Möglichkeit, dies zu demonstrieren, ist die Verwendung von dbt Core mit einem Dev-Container, einer vollständigen Entwicklungsumgebung, die alle wesentlichen Pakete, Tools, Abhängigkeiten und Konfigurationen enthält, die für die Entwicklung mit dbt erforderlich sind.
-
Orchestrierung
Orchestrierung bezieht sich auf die regelmäßige Ausführung Ihres dbt-Projekts, damit die zugrunde liegenden dbt-Modelle aktuelle Daten enthalten. Im Allgemeinen wird dies mit dbt Cloud oder einem Tool wie Airflow oder Dagster durchgeführt. Sie können auch GitHub Actions verwenden, um Ihr dbt-Projekt zu planen. Denken Sie beim Entwurf Ihrer Orchestrierung daran, wie Sie Wiederholungsversuche handhaben, ob bei Fehlern Warnungen gesendet werden und welche Protokolle ausgegeben werden, damit Sie die von der Pipeline durchgeführten Aktionen debuggen können.
-
Zu Ihrem Lebenslauf hinzufügen
Haben Sie bereits ein dbt Repo, auf das Sie stolz sind? Vergessen Sie nicht, einen Link in Ihren Lebenslauf aufzunehmen, damit Personalverantwortliche einen Blick darauf werfen können!
-
Bücher
Für diejenigen, die sich für andere Aspekte der Analysetechnik weiterbilden möchten, gibt es viele Bücher, wie z.B.:
1. Entwerfen datenintensiver Anwendungen: Eine Ressource für das Verständnis und die Entwicklung datenintensiver Anwendungen, die Datenmodellierung, Speichersysteme und verteilte Systeme abdeckt.
2. Grundlagen des Analytics Engineering: Dieses Buch führt Sie durch den Entwurf und die Implementierung von Datenpipelines, Datenmodellierung, Schemadesign, Datenqualität, Governance, Beobachtbarkeit, kollaborative Kodierungspraktiken (Git) und die Automatisierung von Workflows mit CI/CD-Pipelines und Orchestrierern.
3. Das Data Warehouse Toolkit: Der klassische Leitfaden zur Datenmodellierung in Data Warehouses, der sich auf die Methode der dimensionalen Modellierung nach Kimball konzentriert.
-
Gemeinschaft
Inspiration zum Lernen kann auch von anderen kommen. Es gibt eine Reihe von Communities, in denen Sie Fragen stellen, sich inspirieren lassen oder die Arbeit anderer sehen können:
1. dbt Slack: Ein Slack-Arbeitsbereich für alle Fragen im Zusammenhang mit dbt, der von über 20k Benutzern besucht wird.
2. r/dataengineering: Für technischere Fragen ist das Data Engineering Subreddit ein aktiver Raum für Fragen und Projektvorstellungen.
3. Newsletters: Es gibt eine Reihe von Newslettern/Blogs, für die es sich lohnt, sich anzumelden, z.B. Data Products von Chad Sanderson, The Analytics Engineering Roundup von dbt Labs und Benn Stancil's Substack.
Fazit
Für eine Karriere im Bereich Analytik-Engineering sind keine teuren Kurse oder proprietäre Software erforderlich. Indem Sie leistungsstarke Open-Source-Tools und öffentlich verfügbare Datensätze nutzen, können Sie eine moderne Datenverarbeitungspipeline aufbauen. Dieses praktische Projekt mit BigQuery, dbt und GitHub wird Ihnen nicht nur praktische Fähigkeiten vermitteln, sondern auch ein greifbares Portfolio liefern, mit dem Sie Ihre Fähigkeiten potenziellen Arbeitgebern präsentieren können.
Fangen Sie an zu bauen, lernen Sie weiter und scheuen Sie sich nicht, zu experimentieren. Die Welt der Daten wartet auf Sie!
Haben Sie das Gefühl, dass Sie von einer persönlicheren Beratung profitieren könnten? Unsere Berater für Analytik-Ingenieure sind für Sie da - kontaktieren Sie uns einfach und wir werden uns bald bei Ihnen melden. Oder sind Sie ein zukünftiger Analytik-Ingenieur und möchten mehr erfahren? Schauen Sie sich unsere Schulungskurse an oder werfen Sie einen Blick auf unsere offenen Stellen.
Verfasst von
Pádraic Slattery
Pádraic is a technical-minded engineer passionate about helping organizations derive business value from data. With experience in data engineering, Business Intelligence development, and data analysis, he specializes in data ingestion pipelines and DataOps.
Contact



