Blog
Im Klassenzimmer: Meine Erfahrung im Unterrichten fortgeschrittener Datenwissenschaft mit Python

Ich habe vor etwa einem Jahr bei Xebia als Trainerin angefangen. Davor war ich Datenwissenschaftler, aber ich hatte keine Ahnung, wie viel ich durch das Unterrichten lernen würde. Seitdem habe ich mehr als 6 Kurse für fortgeschrittene Datenwissenschaft mit Python gegeben und dabei den Stoff immer wieder verbessert, je nachdem, womit die Teilnehmer zu kämpfen haben. Hier erfahren Sie, was ich gelernt habe und was Sie erwarten können, wenn Sie bei uns mitmachen.
Nach jeder Sitzung stelle ich das gleiche Muster fest. Viele Datenwissenschaftler (mit 0-3 Jahren Erfahrung) sind mit den Grundlagen vertraut. Sie können Daten mit Pandas laden, ein Modell mit scikit-learn trainieren und erhalten ein Ergebnis mit .fit() und .predict(). Aber dann stoßen sie an eine Wand. Ihre Projekte werden unübersichtlich. Ihre Ergebnisse sind nicht leicht reproduzierbar. Sie kämpfen mit realen Problemen wie unausgewogenen Daten oder dem Aufbau einer benutzerdefinierten Logik für ihre spezifischen Geschäftsanforderungen.
Genau aus diesem Grund haben Sie diesen Kurs erstellt. Es geht nicht darum, Data Science von Null an zu lernen, sondern darum, zu lernen, wie man es professionell macht und Ihnen die Struktur und die besten Praktiken an die Hand zu geben, um robuste, zuverlässige und leistungsstarke Lösungen für maschinelles Lernen zu entwickeln.
Hier ist also meine Perspektive aus dem Klassenzimmer.
Die drei wichtigsten Erkenntnisse aus dieser Schulung
Der Kurs hat drei Hauptaufgaben, um Ihre chaotischen Notizbücher in professionelle Arbeitsabläufe zu verwandeln. Lassen Sie mich Ihnen zeigen, was Sie erwarten können.
Sie erstellen saubere, reproduzierbare Scikit-Learn-Pipelines
Was: Sie werden die unordentlichen, einmaligen Notebook-Zellen hinter sich lassen. Sie lernen, wie Sie Ihren gesamten Arbeitsablauf beim maschinellen Lernen - von der Datenbereinigung über die Entwicklung von Merkmalen bis hin zur Modellschulung - in einem einzigen, eleganten Pipeline-Objekt organisieren können.
Warum: Reproduzierbarkeit ist der Schlüssel zu professioneller Datenwissenschaft. Pipelines machen Ihre Arbeit leicht verständlich, wiederverwendbar und fehlerfrei. Das ist ein entscheidender Vorteil für die Zusammenarbeit und die Umsetzung von Modellen in die Produktion.
Wie: Sie bauen sie Schritt für Schritt auf und zeigen Ihnen, wie Sie Transformatoren und einen Schätzer zu einem einzigen, leistungsstarken Tool verketten.
Sie lernen, wie Sie Ihren Code in Schlüsselschritte strukturieren:

Anstelle von verstreuten Notebook-Zellen fließt alles durch eine organisierte Pipeline.
Sie werden fortgeschrittene Techniken beherrschen und maßgeschneiderte Lösungen schreiben
Was: Sie werden weit über die bloße Überprüfung der Genauigkeit eines Modells und die Verwendung von Standardwerkzeugen hinausgehen. Sie beherrschen die richtigen Validierungstechniken wie die Kreuzvalidierung und lernen auch, eigene Transformatoren und Schätzer zu schreiben, die sich perfekt in scikit-learn integrieren lassen.
Warum: Echte Geschäftsprobleme sind chaotisch. Ein einziger Genauigkeitswert kann irreführend sein, und Scikit-Learn kann nicht jedes Problem sofort lösen. Ihr Unternehmen hat eine eigene Logik und eigene Einschränkungen. Mit diesen fortgeschrittenen Fähigkeiten können Sie Lösungen erstellen, die auf Ihre speziellen Bedürfnisse zugeschnitten sind, und diese richtig validieren.
Wie: Sie führen praktische Übungen durch, die die Modellauswahl, die Kreuzvalidierung und bewährte Verfahren für Herausforderungen wie unausgewogene Datensätze behandeln. Sie werden auch eine praktische Einführung in die objektorientierte Programmierung erhalten und die einfache Klassenstruktur von scikit-learn kennenlernen, damit Sie Ihre eigenen Komponenten erstellen können.
Hier finden Sie ein praktisches Beispiel für benutzerdefinierte Komponenten, die Sie erstellen werden:

RandomForestClassifierAUC ist unser benutzerdefiniertes Modell, das AUC anstelle von Genauigkeit als Bewertungsmaßstab verwendet.
Sie werden Ihre Fähigkeiten in einem intensiven Hackathon anwenden
Was: Am Ende eines jeden Tages führen Sie einen praktischen Hackathon durch, bei dem Sie alle gelernten Konzepte auf ein herausforderndes Problem anwenden, bei dem Sie sich anstrengen müssen, aber auch das WARUM dahinter wirklich verstehen!
Warum: Sie lernen am besten, indem Sie etwas tun. Die Hackathons sind darauf ausgelegt, die Theorie in praktische Fertigkeiten umzusetzen. Das ist der Punkt, an dem die Konzepte wirklich "klick" machen.
Wie: Es handelt sich um gemeinschaftliche, rasante Sitzungen, in denen Sie mit Ihren Kollegen zusammenarbeiten, um eine komplette Lösung von Anfang bis Ende zu entwickeln.
Ein Geständnis eines Trainers
Mein Lieblingsmoment in dieser Schulung kommt an Tag 2. Es ist der "Aha!"-Moment, wenn ein Student seinen ersten benutzerdefinierten Transformer schreibt, ihn in eine Pipeline integriert und sieht, dass er perfekt funktioniert. Das ist mein Lieblingsmoment, denn das ist genau das, was ich empfunden habe, als ich diese Fähigkeiten als Datenwissenschaftler erlernte.
Es ist der Moment, in dem Sie erkennen, dass Sie nicht mehr nur eine Bibliothek verwenden, sondern diese erweitern, um sie an ihre eigenen Bedürfnisse anzupassen. Zu sehen, wie die Studenten solche Durchbrüche erzielen, ist der lohnendste Teil meiner Arbeit.
Und das ist das Ziel von Xebia! Wir möchten, dass Sie diesen Kurs mit dem Gefühl verlassen, die Fähigkeiten und das Selbstvertrauen zu besitzen, um komplexere Data Science-Herausforderungen als je zuvor zu bewältigen.
Sind Sie bereit, Ihre chaotische Datenwissenschaft in professionelle Arbeitsabläufe zu verwandeln?
Tauchen Sie mit uns zwei Tage lang tief in Data Science, maschinelles Lernen und Python ein. Sie werden mit besserem Code, leistungsfähigeren Modellen und einem Rahmen für die Verbesserung all Ihrer zukünftigen Projekte nach Hause gehen.
Erfahren Sie mehr und melden Sie sich hier für den Kurs Advanced Data Science with Python an!
Verfasst von

Cihan Yatbaz
Unsere Ideen
Weitere Blogs
Contact



