Blog

Sind die Sklearn-Vorgaben falsch?

Giovanni Lanzani

Giovanni Lanzani

Aktualisiert Oktober 21, 2025
3 Minuten

Auf Twitter gab es kürzlich einen Aufstand über das Standardverhalten von sklearn LogisticRegression:

Wenn Sie den Beitrag lesen, werden Sie feststellen, dass das größte Problem bei dieser Wahl darin besteht, dass Sie ein Modell trainieren werden, das wahrscheinlich zu wenig leistet, wenn Ihre Daten nicht regularisiert sind: Sie bestrafen es unnötig, indem Sie es weniger lernen lassen, als es aus den Daten lernen könnte. Das zweite Problem mit dem Standardverhalten von LogisticRegression ist die Wahl einer Regularisierungskonstante, die in Wirklichkeit eine magische Zahl ist (gleich 1.0). Dies verschleiert die Tatsache, dass die Regularisierungskonstante durch die Suche nach Hyperparametern abgestimmt werden sollte und nicht im Voraus festgelegt werden sollte, ohne zu wissen, wie die Daten und das Problem aussehen. Sie könnten die Daten einfach normalisieren und dann eine Rastersuche durchführen, oder? Natürlich könnten wir das. Das weit verbreitete Problem beim maschinellen Lernen ist jedoch, dass die Leute oft blindlings Online-Tutorials folgen, ohne auf diese Details zu achten, da sie schwer(er) sind. Zu verstehen, wie die Rastersuche funktioniert, ist nicht schwer, aber auch nicht trivial. Um zu verstehen, warum eine Regularisierung notwendig ist, braucht man ein gutes mentales Modell des Merkmalsraums. Auch hier handelt es sich kaum um komplizierte Konzepte. In dem Beitrag wird darauf hingewiesen, dass der erste Google-Treffer, den Sie bei der Suche nach "logistic regression sklearn example" erhalten, nichts über diese grundlegenden Details aussagt. Nebenbei bemerkt ist dies eine sehr einfache, aber wirkungsvolle Frage, wenn Sie Datenwissenschaftler befragen: *Warum sollten Sie die Daten normalisieren, wenn Sie einen Regularisierungsbegriff verwenden*. Eine triviale Antwort für jeden erfahrenen Datenwissenschaftler, eine schwierige Antwort, wenn Sie kein erfahrener Praktiker sind. Diese ganze Diskussion macht es schwer, unsere Data Science-Kurse zu rechtfertigen, wenn die meisten Leute denken, dass man alle Antworten online finden kann. Das ist zwar richtig, aber um zu verstehen, welche Antworten richtig sind - und welche nicht - braucht man oft einen Experten. Möchten Sie jeden Tag mehr kontroverse Meinungen in Ihrem Twitter-Client? Ich bin dort gglanzani!

Verbessern Sie Ihre Python-Kenntnisse, lernen Sie von den Experten!

Bei GoDataDriven bieten wir eine Vielzahl von Python-Kursen an, die von den besten Experten auf diesem Gebiet unterrichtet werden. Kommen Sie zu uns und verbessern Sie Ihr Python-Spiel: - Data Science with Python Foundation - Möchten Sie den Schritt von der Datenanalyse und -visualisierung zu echter Datenwissenschaft machen? Dies ist der richtige Kurs. - Advanced Data Science with Python - Lernen Sie, Ihre Modelle wie ein Profi zu produzieren und Python für maschinelles Lernen zu verwenden.

Verfasst von

Giovanni Lanzani

Contact

Let’s discuss how we can support your journey.