Blog

Wie Sie die Abwanderung vorhersagen können: Schlüsselelemente für die Erstellung eines Abwanderungsmodells

Adrian Dembek

Aktualisiert Oktober 15, 2025
11 Minuten

Trotz der Ära des GenAI-Hypes ist das klassische maschinelle Lernen immer noch lebendig! Ich persönlich habe ChatGPT früher verwendet (z.B. für die Ideenfindung), habe aber vor kurzem damit aufgehört. Daher glaube ich, dass OpenAI auch ein Abwanderungsmodell benötigt (oder wahrscheinlich bereits verwendet), um vorherzusagen, welche Kunden ihre Dienste nicht mehr nutzen werden. Sie können nicht nur die Abwanderungswahrscheinlichkeit für einen bestimmten Benutzer vorhersagen, sondern auch mit Hilfe von Tools zur Erklärung des Modells Gründe finden, warum die Leute mit ihrem Tool unzufrieden sind, und es dann durch Fehlerbehebung oder Entwicklung neuer Funktionen verbessern.

In diesem Artikel führe ich Sie durch die Schlüsselelemente des Aufbaus eines Abwanderungsmodells aus der Geschäftsperspektive (hauptsächlich, denn es gibt auch ein paar Tipps zu Technik und maschinellem Lernen). Sie werden erfahren, was die größten Herausforderungen sind, wenn Sie definieren, was Abwanderung für Sie bedeutet, wie wichtig Geschäftsleute bei der Erstellung von Funktionen für ein maschinelles Lernmodell sind und wie Sie diese geschäftlichen Überlegungen zu den Gründen für Abwanderung in Zahlen umsetzen können.

Studien zufolge:

Immer noch 44% der Unternehmen berechnen ihre Kundenbindungsrate nicht(CustomerGauge)

Die Gewinnung eines neuen Kunden ist 5 bis 25 Mal teurer als die Bindung eines bestehenden Kunden(Harvard Business Review).

Eine Steigerung der Kundenbindung um 5% kann den Gewinn um bis zu 75% steigern(Bain & Company).

Die Wahrscheinlichkeit, an einen bestehenden Kunden zu verkaufen, liegt bei 60-70%, während die Wahrscheinlichkeit, an einen neuen Geschäftsinteressenten zu verkaufen, bei 5-20% liegt(Forbes, zitiert nach dem Buch Marketing Metrics).

Wiederkehrende Kunden geben 67% mehr aus als Neukunden(BIA Advisory Services)

Immerhin 44% der Unternehmen berechnen ihre Kundenbindungsrate nicht(CustomerGauge).

Definition von Abwanderung

Eine der größten Herausforderungen beim Aufbau eines maschinellen Lernmodells zur Vorhersage der Kundenabwanderung ist die Definition der Kundenabwanderung selbst. Auf den ersten Blick mag das einfach erscheinen, aber manchmal kann es Wochen dauern, bis man sich endlich auf eine Definition geeinigt hat - insbesondere in großen Unternehmen oder Banken. Der Grund dafür ist folgender:

  • Geschäftsbereiche und verschiedene Personen können Abwanderung unterschiedlich verstehen
  • die Definition sollte eine mathematische Formel sein, die auf ausgewählten Datensätzen basiert, und manchmal gibt es ein paar "Quellen der Wahrheit".
  • es gibt zahlreiche geschäftliche Ausnahmen, die je nach Unternehmen nicht als Abwanderung behandelt werden sollten:
    • Kunde nur ein paar Tage zu spät mit der Bezahlung der Rechnung
    • Kunde hatte ein Testprodukt
    • Kunde verstorben
    • das Abonnement betrügerisch war und von der Organisation absichtlich eingestellt wurde
    • usw.
  • es gibt technische Ausnahmen:
    • Probleme mit der Datenqualität (z.B. ein Teil der Abonnements hat falsche Anfangs- oder Enddaten)
    • einige Abonnements sind technisch oder werden von Mitarbeitern genutzt

Eine weitere wichtige Dimension der Definition ist die Zeit.

Betrachten Sie die beiden folgenden Varianten:

Wahrscheinlichkeit, dass der Kunde am letzten Tag des Abonnements abwandert

A. berechnet an einem beliebigen Tag des Abonnements

B. berechnet 30 Tage vor dem letzten Tag des Abonnements

Diese beiden Varianten haben einen immensen Einfluss darauf, wie die Variablen aufgebaut werden und wie das Trainingsset aussehen sollte. Version A ist informativer, da wir den Abonnementwert von Tag zu Tag verfolgen und beobachten können, wie er sich aufgrund verschiedener Ereignisse, die der Kunde erzeugt, verändert. Allerdings ist sie komplexer zu implementieren und erfordert mehr Datenpunkte.

Version B generiert Bewertungen für Abonnements, die in Kürze auslaufen, wodurch die Trainingsmenge homogener wird und Bewertungen für Abonnements zu einem Zeitpunkt generiert werden, zu dem der Kundenservice versuchen kann, den Kunden zu einer Verlängerung zu überreden. Es sind auch einige andere Varianten möglich, und es muss immer gemeinsam mit dem Kunden entschieden werden, welche Variante gewählt wird.

Wie Sie sich vorstellen können, kann die obige Liste bei der Definition der Kundenabwanderung in einem Unternehmen eine Menge Herausforderungen mit sich bringen. Deshalb entscheiden sich einige von ihnen für mehrere Definitionen von Abwanderung, verfolgen sie und verwenden sie in separaten Modellen für maschinelles Lernen. Die Verwendung einer einzigen Definition ist jedoch der einfachste Weg, wenn es um die Modellentwicklung, das geschäftliche Verständnis der Ergebnisse und die Pflege der Lösung geht (einschließlich der Durchführung und Auswertung von Marketingkampagnen).

All diese Faktoren zeigen, dass es keine goldene Regel gibt, wenn es darum geht, ein maschinelles Lernmodell für die Abwanderung in einem Unternehmen zu implementieren - jedes Unternehmen ist anders und benötigt eine maßgeschneiderte Lösung, um seine geschäftlichen Anforderungen zu erfüllen.

Ein Brainstorming-Workshop für Features ist der Schlüssel zum Erfolg

Ohne qualitativ hochwertige Merkmale wird auch das robusteste Modell für maschinelles Lernen nicht gut abschneiden. Hier bietet sich ein Workshop zum Brainstorming von Merkmalen an. Um das Beste daraus zu machen, müssen mehrere Geschäftsbereiche daran teilnehmen: Vertrieb, Marketing, Kundenservice, IT und Datenspezialisten. Wenn viel auf dem Spiel steht (die Verringerung der Abwanderung bringt viel Geld), ist es sinnvoll, ein größeres Treffen zu organisieren und ein paar Stunden lang über das Thema zu grübeln. Das Ergebnis eines solchen Treffens sollte sein:

  1. Liste der Datenquellen, die für die Modellierung der Abwanderung verwendet werden können
    a. Entscheidend (z. B. Abonnementdaten)
    b. Nice-to-have (z. B. eingehende Anrufe beim Kundendienst)
  2. Liste der Datenquellen, die derzeit nicht für das Projekt verwendet werden können, aber Informationen enthalten, die für die Vorhersage der Abwanderung wichtig erscheinen. Diese Nichtverfügbarkeit kann folgende Gründe haben:
    a. Historische Daten, die nicht gesammelt wurden
    b. Ein Schlüssel zum Abgleich von Datensätzen aus der Quelle mit unserem Kunden/Abonnement ist nicht verfügbar (es ist jedoch möglich, einen solchen Identifikator zu entwickeln)
    c. Daten werden überhaupt nicht erfasst (z.B. Transkription von eingehenden Anrufen beim Kundendienst oder sogar Aufzeichnungen davon)
  3. Liste der Verhaltensweisen/Merkmale des Kunden (in der Geschäftssprache), die sich auf die Entscheidungsfindung bei der Abonnementverlängerung auswirken (sowohl positiv als auch negativ), z. B.:
  • "Wenn ein Kunde mit unserem Service unzufrieden ist, wird er sein Abonnement nicht verlängern"
  • "Einige unserer Kunden sind Studenten, die das Abonnement nur für ein paar Monate benötigen, um den Umgang mit dem Programm zu lernen."
  • "Letzten Herbst gab es eine große Kampagne mit Rabatten von unserem Konkurrenten"
  • "Aufgrund der Inflation mussten wir die Preise für die Erneuerung der Abonnements ab Januar dieses Jahres um 50% erhöhen.
  • usw.

    Mehrere Definitionen von Abwanderung - gemäß dem vorherigen Absatz.

Nebenbei bemerkt ist ein solcher Workshop auch eine großartige Gelegenheit, das Team und Menschen zu treffen, die an den Ergebnissen des Projekts interessiert sind. Das kommt der zukünftigen Zusammenarbeit und schließlich der Qualität der gesamten Lösung zugute.

Übersetzen Sie Verhalten in Statistiken: Feature Engineering

Der nächste Schritt besteht darin, das Ergebnis des Brainstormings mithilfe statistischer Aggregationen in Daten wiederzugeben. Meiner Meinung nach ist dies einer der interessantesten Teile der Arbeit eines Data Scientist - die Realität mit Zahlen zu beschreiben und zu versuchen, ihr so nahe wie möglich zu kommen. Lassen Sie uns versuchen, die Funktionen zu erstellen, die die Ideen aus dem vorigen Absatz abdecken würden:

  1. "Wenn ein Kunde mit unserem Service unzufrieden ist, wird er sein Abonnement nicht verlängern"
    1.1 Anzahl der eingehenden Kundenanrufe innerhalb des letzten Jahres
    1.2 Anzahl der Kunden-E-Mails, die sich in den letzten 6 Monaten über unsere Dienstleistungen beschwert haben
  2. "Einige unserer Kunden sind Studenten, die das Abonnement nur für ein paar Monate benötigen, um die Nutzung zu erlernen"
    2.1 Wenn die Registrierungs-E-Mail eine Universitätsadresse enthält (z.B. @uw.edu.pl)
    2.2 Wenn es sich um einen erklärten Studenten handelt (z.B. bei der Registrierung eines neuen Kunden markiert)
  3. "Im letzten Herbst gab es eine große Rabattaktion unseres Konkurrenten"
    3.1 Der tägliche Preis des Konkurrenten für ein ähnliches Produkt
    3.2 Einfacher Indikator: wenn der Konkurrent eine Kampagne mit Rabatten hat
  4. "Aufgrund der Inflation mussten wir die Preise für die Erneuerung des Abonnements ab Januar dieses Jahres um 50% erhöhen.
    4.1 Preis des Produkts, den der Kunde im letzten Jahr bezahlt hat
    4.2 Preis des Produkts, den der Kunde für die Verlängerung des Abonnements zahlen muss

Manchmal müssen wir sehr kreativ sein, um zu versuchen, die Informationen in Daten wiederzugeben, da wir oft keine solchen historischen Daten zur Verfügung haben. In diesem Fall müssen Sie solche Ideen als Auslöser betrachten, um mit der Sammlung weiterer Datenquellen zu beginnen, die Sie für Ihr Unternehmen als nützlich erachten.

Das Wichtigste beim Erstellen von Variablen:

  1. Seien Sie vorsichtig mit Datenlecks

Im Modell sollten keine Informationen "aus der Zukunft" enthalten sein. Wenn wir zum Beispiel wissen, dass ein Abonnement am 1. April 2023 gekündigt wurde (dies war der letzte Tag des Abonnements) und wir möchten, dass unser Modell das Ereignis einen Monat früher vorhersagt, müssen wir die Informationen verwenden, die am 1. März 2023 verfügbar waren. Nachfolgend finden Sie zwei Beispiele für Variablen, bei denen die erste Variable Informationen aus der Zukunft enthält und die zweite nicht:

❌ Gesamtzahl der im letzten Kalenderjahr gekauften Produkte (d.h. das gesamte Jahr 2023)

✅ Anzahl der Produkte, die der Kunde in den letzten 12 Monaten gekauft hat (berechnet am 1. März 2023)

  1. Erstellen Sie Variablen, die zeitlich stabil sind

Wenn sich die Verteilung der Variablen im Laufe der Zeit ändert (durch ihr Design, nicht durch Verhaltensänderungen), kommt es immer zu einer Datendrift und das Modell wird immer schlechter abschneiden. In den folgenden Beispielen wird die erste Variable für Kunden, die sich vor vielen Jahren registriert haben, immer wachsen; die zweite Variable bleibt relativ stabil, wenn unser Angebot gleich bleibt

❌ Gesamtzahl der vom Kunden gekauften Produkte

✅ Anzahl der Produkte, die der Kunde in den letzten 12 Monaten gekauft hat

  1. Achten Sie auf die Verwendung kategorischer Variablen mit sich schnell ändernden Niveaus
    Wenn Sie kategorische Variablen verwenden möchten, von denen Sie glauben, dass sie ein guter Prädiktor für die Abwanderung sind, untersuchen Sie, wie schnell sie sich ändern. Es ist sicherer, eine höhere Ebene der Produktkategorisierung zu verwenden als die Produkt-ID selbst. Stellen Sie sich vor, dass das Abonnement, das im letzten Jahr zu einem bestimmten Preis verkauft wurde, mit einer anderen ID verkauft wurde als das Abonnement in diesem Jahr. Eine solche Produkt-ID wird im Scoring-Datensatz nicht vorhanden sein. Wenn das Unternehmen jedoch Produkte aus einigen wenigen Kategorien anbietet, z.B. Streamingdienste-Abonnement, Versicherungsabonnement, Werbeabonnement usw., können Sie diese Kategorien bei der Entwicklung von Merkmalen sicher verwenden:

❌ Durchschnittswert der aktiven product_id=87673

✅ Durchschnittlicher Wert der aktiven Werbeabonnements

Was die Technologie betrifft, so empfehle ich persönlich, solche Variablen in Form von mehreren Marts vorzubereiten (und nicht nur Transformationen als Pipeline zur Generierung von Scores vorzunehmen). Dafür habe ich das dbt-Framework verwendet, bei dem der Code nur aus SQL, einer yaml-Konfiguration und ein wenig Python besteht. Mit dieser Lösung können die Ergebnisse unserer Arbeit - wenn sie ordnungsgemäß dokumentiert sind - von anderen Teammitgliedern für ihre Machine-Learning-Modelle oder einige aufschlussreiche Dashboards für das Management verwendet werden.

Der Rest ist klassisches maschinelles Lernen

Jetzt können Sie Ihre ersten Modelle für maschinelles Lernen ausführen. Ein paar Empfehlungen von meiner Seite:

  1. Testen Sie die Ergebnisse Ihres Modells anhand des folgenden Beispiels aus der Zeit(siehe hier)
  2. Verwenden Sie LightGBM - wenn es richtig implementiert ist, sollte es die Arbeit erledigen.
  3. Verwenden Sie Optuna, um die Hyperparameter Ihres Modells zu optimieren

Vergessen Sie nicht die MLOps, um das Modell schnell in Produktion zu bringen.

Anti-Abwanderungs-Kampagnen durchführen

Das maschinelle Lernmodell selbst wird die Kunden nicht davon abhalten, ihre Abonnements zu kündigen - was Sie brauchen, ist ein Plan, wie Sie es einsetzen, um das Geschäftsergebnis zu maximieren. Und am besten beginnen Sie mit einer solchen Planung gleich zu Beginn eines Projekts zur Modellierung der Kundenabwanderung.

Zu guter Letzt sollten Sie bei der Durchführung einer Marketingkampagne am besten A/B-Tests durchführen. Auf diese Weise werden Sie in der Lage sein:

  • Validieren Sie die Leistung von Modellen für maschinelles Lernen
  • Korrelieren Sie die Wahrscheinlichkeitswerte mit der Wirkung der Kampagne selbst (wie viel Prozent der Kunden mit Werten von 0,7-0,8 haben sich nicht abgewandt, verglichen mit den Kunden mit Werten von 0,8-0,9
  • Testen Sie abgestufte Rabatttiefen in Abhängigkeit von der Abwanderungswahrscheinlichkeit

Bitten Sie nach Möglichkeit auch Ihre Kundenbetreuer, die Bewertungen zu kommentieren - sie kennen die Kunden und haben ein Gefühl dafür, welche Kunden eher abwandern und welche ihr Abonnement definitiv verlängern werden.

Ein solches Feedback sowie eine gründliche Analyse der Kampagnenergebnisse helfen Ihnen, Ihr Modell mit zusätzlichen Funktionen zu verbessern oder Fehler zu beseitigen, die zu falschen Vorhersagen führen.

Warum Echtzeit-ML?

Die Modellierung der Kundenabwanderung ist immer noch ein wertvoller Beitrag, wenn es darum geht, die Abwanderung Ihres Kundenstamms zu verringern. Wenn Sie sie klug einsetzen, können Sie damit Ihre Kundenbindungskampagnen noch ausgefeilter und effektiver gestalten.

Wenn Sie Fragen haben oder ein tieferes Verständnis benötigen, melden Sie sich für ein kostenloses Beratungsgespräch mit unseren Experten an, und vergessen Sie nicht, unseren Newsletter zu abonnieren, um weitere Informationen zu erhalten.

Verfasst von

Adrian Dembek

Contact

Let’s discuss how we can support your journey.