Blog

Lösen Sie schwierige Datenprobleme mit kausaler Datenwissenschaft

Walter van der Scheer

Aktualisiert Oktober 21, 2025
5 Minuten

"Die Datenanalyse ist von großem Wert. Aber wenn die niedrig hängenden Früchte in einem Datensatz nicht mehr vorhanden sind, wird es schwieriger, einen Wert aus den Daten zu ziehen." Für Unternehmen ist es verlockend, voreingenommene Antworten zu finden und falsche Schlüsse zu ziehen, z.B. Kausalität mit Korrelation zu verwechseln. In einer kürzlich gehaltenen Präsentation auf dem Meetup Business Experimentation betonte Adam Kelleher, leitender Datenwissenschaftler bei Buzzfeed, dass dies nicht ohne Risiko ist.

Adam Kelleher ist leitender Datenwissenschaftler bei Buzzfeed, einer der am stärksten frequentierten Websites der Welt. Er war in Amsterdam, um im GoDataDriven-Büro einen Workshop und eine Präsentation über Causal Data Science zu halten.

Nutzen aus Daten ziehen, ohne in Schwierigkeiten zu geraten

Zunächst führte uns Adam durch einige Gedankengänge über Wert und Komplexität.

  • Wert impliziert Investition
  • Investitionen bedeuten Wachstum
  • Wachstum impliziert Komplexität
  • Komplexität bedeutet Ärger

Wie können Sie den Wert von Datensätzen erkennen, ohne sich in Schwierigkeiten zu bringen? Adam erläuterte dies, indem er auf Kausalität im Gegensatz zu Korrelation einging, sich auf die Wirkung und nicht auf die Behandlung konzentrierte, Verzerrungen vermied und die richtigen Schlussfolgerungen zog. Roen Roomberg nahm an dem Meetup teil und war sehr begeistert: "Was ich am meisten gelernt habe, ist, dass der Umgang mit Daten wie der Umgang mit Feuer ist. Adam hat mir gezeigt, wie man damit ein großartiges Gericht kochen kann, aber auch, wie man seine Zutaten komplett ruinieren kann. Er hat wirklich eine Meisterklasse in Datenwissenschaft gegeben".

Adam Kelleher

Kausalität vs. Korrelation

Korrelation bedeutet, dass zwei oder mehr Situationen häufig zusammen auftreten. Kausalität bedeutet, dass eine Sache zu einer anderen geführt hat. So einfach das auch klingen mag, die Bestimmung der Kausalität ist nicht trivial. Nehmen wir das Beispiel eines heißen Sommertages. Die Menschen neigen dazu, sich einen Sonnenbrand zu holen (zum Glück heutzutage immer seltener) und mehr Wasser zu trinken. Man könnte also sagen, dass Sonnenbrand und Durst miteinander korreliert sind. Aber gibt es eine Kausalität? So einfach es auch sein mag, dies zu bejahen, ist es in Wirklichkeit nicht. Die Ursache sowohl für Sonnenbrand als auch für Durst ist die Sonne. Sonnenbrand und Durst hängen also zusammen, aber es besteht kein kausaler Zusammenhang zwischen ihnen.

Ein korrelierter Effekt sollte nicht mit einer kausalen Beziehung verwechselt werden. Adam erklärt, dass dies in der Statistik confounding bedeutet, dass etwas (eine Variable) mit mindestens zwei anderen Variablen verbunden ist und die Korrelation zwischen den beiden anderen Variablen erklärt. In der Tat, wie die Sonne im Zusammenhang mit Sonnenbrand und Durst.

Konzentrieren Sie sich auf die Wirkung und nicht auf die Behandlung

Der Grund dafür ist, dass es bei Online-Experimenten manchmal verlockend ist, eine kausale Beziehung zwischen zwei Ereignissen herzustellen, obwohl sie nur korrelieren. Adam betont, wie wichtig es ist, bei der Empfehlung von Inhalten auf einer Website im Rahmen von A/B-Tests zufällige Artikel hinzuzufügen, damit die Empfehlungen auf der Grundlage der tatsächlich empfohlenen Inhalte und nicht auf der Tatsache, dass empfohlene Artikel angezeigt werden, optimiert werden.

Adam Kelleher

Vermeiden Sie Vorurteile

Normalerweise werden Daten erst gesammelt, nachdem ein Produkt hergestellt wurde. Die Daten werden dann im Nachhinein analysiert, was zu Beobachtungsdaten und nicht zu experimentellen Daten führt. Dies führt zu Verzerrungen. Bei Buzzfeed analysierte das Data-Science-Team die Länge der Überschriften und die damit verbundene Klickrate (CTR). Das Ergebnis war, dass Überschriften mit 16-18 Wörtern die höchste durchschnittliche CTR hatten. Die Schlussfolgerung könnte sein, dass die Korrelation zwischen Überschriftenlänge und CTR auch ein kausaler Effekt ist. Auf der Grundlage dieser Analyse allein lässt sich dies jedoch nicht beweisen, so dass weitere Experimente erforderlich sind. "Ja, ein Experiment zu haben, wäre großartig, aber manchmal kann man sie einfach nicht haben. Adams Workshop gab eine gute Vorstellung davon, wie man die vorhandenen (nicht experimentellen) Beobachtungsdaten am besten nutzt", sagte Taavi Kivisik nach der Präsentation.

Namensnennung

Eine weitere Herausforderung besteht darin, zu verstehen, ob ein Empfehlungsgeber zusätzlichen Traffic erzeugt oder ihn lediglich erleichtert. Wenn jemand Schuhe kauft, hat diese Person vielleicht schon die Absicht, einen Gürtel zu kaufen. Die Empfehlung des Produkts hat den Kauf also nicht ausgelöst, sondern lediglich die Absicht erleichtert. Es hat also den Kauf erleichtert.

Wenn man ein Experiment durchführt, kann man leicht zu dem Schluss kommen, dass ein Experiment der eindeutige Gewinner ist. Aber wenn Sie die richtige Statistik anwenden, können Sie nicht sagen, dass dieses Ergebnis signifikant ist. Adam verwendet ein Beispiel, bei dem Sie zwei Anzeigen haben, beide haben 10000 Impressionen, aber die CTR von Creative 2 ist doppelt so hoch wie die von Creative 1. Die Schlussfolgerung daraus ist, dass man mit einer Signifikanz von 95 % sicher sagen kann, dass Kreativ 1 100 % besser oder 20 % schlechter abschneidet...

Wenn sich die Anzahl der Impressionen auf 20.000 verdoppelt, kann man mit Sicherheit sagen, dass Kreativ 1 besser abschneiden wird. Wie viel besser, ist schwer zu sagen, aber mit 95%iger Sicherheit können Sie sagen, dass das Kreativ 1 um 1% bis 100% besser abschneidet als 2.

Sie sollten nicht nur darauf achten, dass Sie die richtige Entscheidung auf der Grundlage der wahren Kausalität treffen, sondern auch auf der Grundlage der wahren Bedeutung.

Das richtige Know-how zur Lösung schwieriger Datenprobleme

Adam Kelleher erklärt, dass es wichtig ist, zu verstehen, dass es relativ einfach ist, aus neuen Datensätzen Werte zu extrahieren, aber irgendwann sind die einfachen Probleme verschwunden. Für die schwierigen Probleme brauchen Sie Experten mit dem richtigen Fachwissen.

Das bedeutet, dass Unternehmen, die bereit sind, die schwierigen Probleme zu erforschen, auf drei Dinge achten sollten:

  • Interdisziplinäres Wissen. Sozialwissenschaftler für die Kausalität, Statistiker für die Anwendung guter Statistiken und Datenmanipulatoren für die Nutzung von Big Data. ;
  • Infrastruktur, in der Sie jedes Instrument messen können;
  • Eine Kultur, die entwickelt wurde, um schwierige Probleme zu lösen. Denn nicht nur einfache Probleme haben einen Wert, sondern auch die schwierigen.
Adam Kelleher

Wir stellen ein

Verfasst von

Walter van der Scheer

Contact

Let’s discuss how we can support your journey.