Blog

Datengestütztes Upskilling - Erstellen Sie effektive Beurteilungen, um das Wachstum Ihres Teams freizusetzen

Sarah Hare

Aktualisiert Oktober 15, 2025
12 Minuten

In einer Welt, in der wir uns ständig weiterbilden, sind Bewertungen der Kompass, der uns auf unserer Lernreise leitet. Sie zeigen uns, wo wir stehen und in welchen Bereichen wir uns verbessern können. Ganz gleich, ob Sie als Trainer in einem Unternehmen, als Lehrkraft oder als Student tätig sind, die Wahrscheinlichkeit ist groß, dass Sie bereits mit einer Vielzahl von Beurteilungen konfrontiert wurden oder sogar selbst eine Beurteilung erstellt haben. Auf die eine oder andere Weise haben Sie sich vielleicht schon gefragt: "Ist das wirklich der beste Weg, dies zu beurteilen?"

Um diese Frage zu beantworten, werden wir uns mit der Wissenschaft und Praxis bei der Erstellung effektiver Bewertungen befassen. Dies ist der erste Teil einer Serie von Blogposts über datengesteuerte Weiterbildung. In den nächsten Beiträgen werden wir uns mit Themen wie einem Rahmen für die Bewertung von Datenkompetenz und der Verwendung von Bewertungsergebnissen für die Erstellung personalisierter Weiterbildungspläne befassen. Mit dieser Serie möchten wir Ihnen einen umfassenden Leitfaden an die Hand geben, der Ihnen dabei hilft, die Datenkenntnisse und die Denkweise Ihres Teams zu verbessern.

Lassen Sie uns einen genaueren Blick darauf werfen, was es braucht, um eine effektive Bewertung zu erstellen.

Die Macht der Beurteilungen

Assessments sind eine Möglichkeit, die Fähigkeiten, das Wissen und sogar die Denkweise und die Vorlieben einer Person zu messen und zu bewerten. Bekannte Anwendungen reichen von Bewerberbewertungen bis hin zu Führerscheintests und Persönlichkeitsinventaren.

In Unternehmen sind Beurteilungen das Mittel der Wahl, um verborgene Talente aufzudecken und Qualifikationslücken im Mitarbeiterpool zu identifizieren. Und ihre Ergebnisse werden genutzt, um wichtige Entscheidungen zu treffen, wie z.B. Einstellungen oder Weiterbildungsmaßnahmen, die erhebliche Auswirkungen auf das Unternehmen haben können.

Derzeit besteht eine große Nachfrage nach Bewertungen der Datenkompetenz. Angesichts strengerer Datensicherheitsvorschriften und der Tatsache, dass KI-Bürolösungen auf dem Vormarsch sind, haben Unternehmen erkannt, dass alle Mitarbeiter mit Daten in Berührung kommen. Unternehmen wollen verstehen, wie gut ihre Mitarbeiter Daten interpretieren, mit Datenwerkzeugen umgehen und datengesteuerte Entscheidungen treffen können. Sie wollen nicht nur Erkenntnisse, sondern auch in der Lage sein, einzugreifen und ihre Mitarbeiter bei Bedarf weiterzubilden. Hier kommen die Bewertungen ins Spiel.

Angesichts der Auswirkungen, die Bewertungen haben können, sollte man hoffen, dass sie mit großer Sorgfalt entwickelt werden. Was sind also einige bewährte Verfahren für die Erstellung von Bewertungen?

Die Kunst der Erstellung von Beurteilungen

"Intelligenz ist das, was der [Intelligenztest] misst." (Boring, 1923, The New Republic)

Jeder Psychologiestudent wird dieses Zitat kennen. Ob es eine brauchbare Definition von Intelligenz ist, darüber lässt sich streiten. Es ist jedoch ein hilfreiches Mantra, das Sie im Hinterkopf behalten sollten, wenn Sie einen Test oder eine Bewertung entwickeln. Es soll Sie daran erinnern, dass Sie sich immer zuerst fragen sollten: "Was genau will ich testen?"

Mit anderen Worten:

  • Definieren Sie ein klares ZielAngenommen, Ihr Ziel ist es, die Datenkompetenz zu bewerten. Welche spezifischen Fähigkeiten oder Wissensbereiche möchten Sie messen? Sind Sie am Gesamtniveau der Datenkompetenz im gesamten Unternehmen interessiert? Oder wollen Sie das Niveau der Datenkompetenz jedes Einzelnen messen und es mit der am besten geeigneten Lernmethode in Einklang bringen? Denken Sie über den Zweck Ihrer Bewertung nach und beschreiben Sie Ihr Ziel so klar und deutlich wie möglich.

Wenn Sie Ihr Ziel vor Augen haben, gehen Sie zur Auswahl der Materialien über, aus denen Ihre Bewertung bestehen soll:

  • Wählen Sie das richtige FormatAssessmentskönnen verschiedene Formen annehmen, z. B. Umfragen, praktische Kompetenztests oder szenariobasierte Simulationen. Überlegen Sie, welches Format am besten zu Ihren Zielen und Ihrer Zielgruppe passt. Während textbasierte Beurteilungen eine effiziente Methode zur Bewertung von Wissen und Einstellungen sind, eignen sich aufgabenbasierte Beurteilungen hervorragend zur Bewertung von Leistung und Fähigkeiten. Letztere können sogar verwendet werden, um Gewohnheiten und Vorlieben zu erfassen, die die Teilnehmer nicht in Worte fassen können.
  • Verwenden Sie die richtigen FragetypenManchmalist eine Bewertung so einfach wie eine Liste von Fragen. Klingt einfach, oder? Nun, ich will Ihnen nicht die Laune verderben, aber es gibt tatsächlich verschiedene Arten, Fragen zu stellen, und jede hat ihre Vor- und Nachteile.Nehmen Sie zum Beispiel offene Fragen in einer Umfrage. Sie fordern den Teilnehmer auf, seine Antwort in ein Texteingabefeld einzugeben. Sie geben dem Teilnehmer die Freiheit, seine Gedanken auszudrücken, aber die Verwendung von natürlicher Sprache kann die Analyse erschweren. Geschlossene Fragen, wie z.B. Multiple-Choice-Fragen, bieten dem Teilnehmer dagegen nur eine begrenzte Auswahl an Antwortmöglichkeiten. Dadurch lassen sich geschlossene Fragen leichter in einem größeren Rahmen analysieren, aber es kann sein, dass eine entscheidende Antwort, die informativ gewesen wäre, übersehen wird. Um das Beste aus beiden Welten zu erhalten, ist es üblich, Multiple-Choice-Fragen mit einer freien Texteingabeoption für "Sonstiges" zu beenden. Wenn Sie jedoch eine Antwort auf einen Gedankengang erhalten möchten, ist nichts besser als eine gut formulierte offene Frage.
  • Planen Sie den FragenablaufEineReihe von Fragen kann entweder statisch sein, d.h. jede Frage erscheint in einer vordefinierten Reihenfolge, oder dynamisch, d.h. die Fragen passen sich den Antworten der Teilnehmer an. Wenn sich beispielsweise in einem ersten Fragenblock herausstellt, dass der Teilnehmer ein Datenneuling ist, wäre es aufgrund einer statischen Fragenreihenfolge sinnlos, ihn auf seine Programmierkenntnisse zu testen. Der Nachteil von dynamischen Fragereihen ist jedoch, dass sie mehr Planung erfordern und nicht von jedem Umfragetool unterstützt werden.
  • Ausgewogene SchwierigkeitAuchwenn schwierige Beurteilungen einen wütenden Mob in Ihr Büro locken oder Bewerber verwirrt und enttäuscht zurücklassen können, gibt es einige Vorteile. Eine strengere Bewertung kann notwendig sein, um zwischen Teilnehmern mit stärkeren und schwächeren Fähigkeiten zu unterscheiden. Im Gegensatz dazu kann eine einfache Bewertung, bei der die Teilnehmer eine Trophäe erhalten, dazu führen, dass die Punktzahlen kaum variieren und daher wenig Aufschluss über individuelle Unterschiede geben. Im Allgemeinen ist es gut, ein Gleichgewicht zwischen einfachen und anspruchsvollen Bewertungselementen anzustreben, damit die Teilnehmer sich engagiert fühlen und die Bewertung abschließen.
  • Reverse-Engineering der BewertungDenkenSie rückwärts: Stellen Sie sich zunächst die Analysen vor, die Sie mit den Bewertungsergebnissen durchführen möchten. Vielleicht möchten Sie verschiedene Kategorien von Datenkompetenz ableiten oder eine Korrelation zwischen Datenkompetenz und Datenbewusstsein berechnen. Dann entwickeln Sie auf der Grundlage des Analysetyps die Messskalen und statistischen Kriterien zurück, die Ihre Bewertungsergebnisse erfüllen müssen. Um beispielsweise eine lineare Korrelation zu berechnen, müssen sich die beiden Variablen auf einer Intervall- oder Verhältnisebene befinden. Das bedeutet, dass die Werte auf der Messskala in eine Rangfolge gebracht werden können und zwischen jedem Wert auf der Skala der gleiche Abstand besteht.

Abb. 1: Mit Blick auf das Ziel Ihrer Prüfung müssen Sie ein Gleichgewicht zwischen den verschiedenen Prüfungsformaten, Fragetypen, Aufgabenreihenfolgen und Schwierigkeitsgraden finden, die für Ihren Zweck am besten geeignet sind.

Ok, jetzt haben Sie das Material, um eine Bewertung zu erstellen. Aber woher wissen Sie, ob Ihre Bewertung das misst, was sie messen soll? Hier kommt die Psychometrie ins Spiel.

Die Wissenschaft der Psychometrik

Psychometrie ist die Wissenschaft von der Messung psychologischer Eigenschaften wie Fähigkeiten, Wissen, Denkweisen und Meinungen. Sie liefert die Methodik, um zu überprüfen, ob Ihre Bewertung genau, präzise und vertrauenswürdig ist.

Im Mittelpunkt der Psychometrie steht eine Reihe von Kriterien, die den Nordstern der Testqualität darstellen. Wenn Sie einen wirklich genauen und vertrauenswürdigen Test entwickeln möchten, sollten Sie versuchen, diese Kriterien zu erfüllen. Spoiler: Sie werden sie nie zu 100% erfüllen; alles über 70% ist akzeptabel, über 80% ist gut und über 90% ist ausgezeichnet. Deshalb reicht es in der Praxis oft aus, den gesunden Menschenverstand walten zu lassen und die im nächsten Abschnitt beschriebenen Tipps zu befolgen. Es kann jedoch nicht schaden, den Nordstern zu kennen, damit Sie wissen, in welche Richtung Sie sich bewegen sollten.

Die Qualitätskriterien für den Test sind:

Objektivität

Die Ergebnisse Ihrer Bewertung sollten nicht davon abhängen, wer die Bewertung durchführt.

Dies ist besonders wichtig für persönliche Tests, für die die Tester sorgfältig geschult werden müssen, um die Art und Weise, wie sie die Teilnehmer durch den Test führen, zu standardisieren. Bei computergestützten Tests, bei denen die Person in der Mitte des Tests wegfällt, ist dies weniger ein Problem. In diesem Fall ist es jedoch von entscheidender Bedeutung, dass die Anweisungen und der Testinhalt für jeden Teilnehmer kristallklar und unzweideutig sind.

Verlässlichkeit

Ihre Bewertung sollte konsistent und verlässlich sein. Das heißt, wenn Sie dieselbe Bewertung zweimal mit derselben Person durchführen, sollte sie dasselbe Ergebnis liefern.

Um eine hohe Reliabilität zu erreichen, führen Sie am besten Pilottests durch, verwenden eine konsistente Bewertung und eliminieren mehrdeutige Fragen. Um zu überprüfen, ob Sie erfolgreich waren, wiederholen Sie eine Bewertung (Test-Retest-Reliabilität) oder vergleichen Sie Testaufgaben, die dieselbe latente Variable messen sollten (interne Konsistenz-Reliabilität), und berechnen Sie einen Korrelationskoeffizienten als Maß für die Zuverlässigkeit. Eine gängige Praxis bei der Entwicklung von Fragebögen besteht darin, dieselbe Frage in zwei oder mehr Versionen zu verwenden und zu prüfen, ob die Personen konsistent antworten.

Gültigkeit

Die Bewertung sollte das messen, was sie messen soll.

Bei einer Bewertung der Datenkompetenz möchten Sie zum Beispiel sicherstellen, dass die Bewertung tatsächliche Datenkenntnisse und nicht unverbundenes Wissen erfasst. Dies können Sie erreichen, indem Sie testen, ob die Fähigkeiten der Teilnehmer in der Bewertung mit ihren Fähigkeiten am Arbeitsplatz korrelieren. Prüfen Sie zum Beispiel, ob Teilnehmer, die laut Ihrer Bewertung über fortgeschrittene Programmierkenntnisse verfügen, auch bei Code-Reviews am Arbeitsplatz gut abschneiden.

Abb. 2: Hohe Validität bedeutet, dass Ihre Bewertung das Ziel trifft. Hohe Zuverlässigkeit bedeutet, dass Ihre Bewertung immer wieder denselben Punkt trifft (ob es nun das Ziel ist oder nicht). Mit einer niedrigen Zuverlässigkeit ist es unmöglich, eine hohe Validität zu erreichen, denn wenn eine Bewertung unterschiedliche Ergebnisse liefert, wissen Sie einfach nicht, welches Ergebnis das Ziel ist. Daher sollten Sie immer sowohl eine hohe Validität als auch eine hohe Reliabilität anstreben.

Fairness und Vermeidung von Voreingenommenheit

Vermeiden Sie Bewertungselemente, die bestimmte demografische Gruppen oder Hintergründe bevorzugen. Wenn Sie in Ihren Bewertungsanweisungen ausschließlich männliche Beispiele anführen, müssen Sie sich nicht wundern, wenn weibliche Teilnehmer die Anweisungen anders interpretieren. Es ist auch hilfreich, sich über kulturelle Vorurteile im Klaren zu sein. In einigen Regionen ist es beispielsweise normal, absolut zuzustimmen oder nicht zuzustimmen, während in anderen Regionen Extreme als unhöflich gelten und die Teilnehmer höchstens etwas zustimmen oder nicht zustimmen werden. Berücksichtigen Sie dies bei der Gestaltung Ihrer Antwortmöglichkeiten.

Vermeiden Sie außerdem Fragen, die vorgeben, welche Art von Antwort gesellschaftlich wünschenswert wäre. Wenn Sie die Gelegenheit dazu haben, werden die Teilnehmer - bewusst oder unbewusst - dazu neigen, sich in einem besseren Licht darzustellen. Das kann sich als nachteilig erweisen, wenn Sie versuchen, verbesserungsbedürftige Fähigkeiten aufzudecken. Um diese Art von Antwortverzerrung zu reduzieren, wählen Sie Ihre Formulierungen so, dass die Teilnehmer einen Anreiz haben, sich so wahrheitsgetreu wie möglich zu präsentieren.

Wir wissen also, dass wir den Nordstern der Testqualität anstreben sollten. Wie machen wir das in der Praxis?

Erstellung einer Bewertung

Es ist an der Zeit, die Ärmel hochzukrempeln und die praktischen Schritte bei der Erstellung einer Bewertung durchzugehen. Bleiben wir zur Veranschaulichung bei unserem Beispiel mit den Datenkenntnissen.

  1. Erstellen Sie eine FragenbankErstellen Sieeine Sammlung von Fragen, die verschiedene Aspekte der Datenkompetenz abdecken. Sie können auch die automatische Generierung von Fragen in Betracht ziehen, für die Sie eine Vorlage erstellen und einen Computeralgorithmus Testfragen generieren lassen. Achten Sie darauf, dass Sie mehrere Fragen zum selben Thema stellen und diese sowohl positiv als auch negativ formulieren, um der Tendenz zum "Ja-Sagen" entgegenzuwirken, d.h. dem Phänomen, dass die Befragten im Zweifelsfall dazu neigen, einer Frage zuzustimmen.
  2. Mischen Sie Fragen und Antworten nach dem Zufallsprinzip. IndemSie die Reihenfolge der Fragen und Antwortoptionen pro Teilnehmer mischen, verringern Sie das Risiko, dass die Reihenfolge der Fragen oder Bewertungselemente Ihre Ergebnisse beeinflusst.
  3. Führen Siedie Bewertung in einer kleinen Gruppe durchund sammeln Sie Daten darüber, ob jedes Bewertungselement oder jede Frage dazu beiträgt, das Ziel auf effektive und sinnvolle Weise zu erfassen. Werden einige Fragen von allen identisch beantwortet? Werfen Sie sie raus. Sehen Sie Anzeichen für eine Verzerrung der Antworten, z.B. eine größere Gruppe von Personen als erwartet, die sich als "hochqualifiziert" darstellen? Formulieren Sie die betroffenen Fragen neu und bearbeiten Sie die Antwortoptionen. Bewerten Sie die Ergebnisse der Pilotstudie mit Ihrem Fachwissen und Ihrem gesunden Menschenverstand. Erzählen die Ergebnisse eine kohärente Geschichte? Fällt etwas auf, das ungewöhnlich oder überraschend ist? Jetzt ist es an der Zeit, des Teufels Advokat zu spielen und zu untersuchen, ob die Ergebnisse möglicherweise auf Fehler im Bewertungsdesign zurückzuführen sind.
  4. Ziehen Sie die Item-Analyse in BetrachtWennPräzision und Genauigkeit Ihrer Bewertung höchste Priorität haben, sollten Sie die Item-Analyse in Betracht ziehen, eine statistische Methode zur Bewertung und Auswahl der Testaufgaben, aus denen eine Bewertung besteht. Sie dient dazu, den Schwierigkeitsgrad und die Trennschärfe der einzelnen Bewertungselemente zu analysieren und - in einem iterativen Prozess - einen Test zu optimieren, der die Attribute, die Sie zu messen versuchen, genau erfasst. In Fällen, in denen ein falsches Ergebnis weitreichende Folgen haben kann, wie z.B. bei Diagnoseinstrumenten, ist die Item-Analyse eine absolute Notwendigkeit. Da sie jedoch mehrere Iterationen und mehr Ressourcen erfordert, wird sie bei der Entwicklung von Unternehmensbewertungen oft übersprungen. Wenn Sie also eine möglichst effektive Bewertung anstreben, sollten Sie ein Budget für die Analyse und Optimierung von Aufgaben einplanen.
  5. Bonus: Geben Sie den Teilnehmern sofortiges Feedback, um das Gelernte zu festigenNutzen Sieden Schwung, den Ihre Bewertungsergebnisse erzeugt haben, und stellen Sie einen Aktionsplan auf. Nach unserer Bewertung der Datenkompetenz erhalten die Teilnehmer idealerweise sofortiges Feedback zu ihren Stärken und Schwächen und werden auf ihre persönliche Weiterbildungsreise verwiesen.

Abb. 3: Eine gut durchdachte Bewertung ist der ideale Ausgangspunkt für ein maßgeschneidertes Weiterbildungsprogramm. Hier sehen Sie die Entwicklungsschritte von einer Bewertung der Datenkompetenz bis hin zu einem Weiterbildungsprogramm, das dynamisch mit den Bewertungsergebnissen der einzelnen Teilnehmer verknüpft werden kann.

Fazit

Beurteilungen helfen uns, den Lernfortschritt zu steuern und zu verstehen. Sie können ein leistungsfähiges Instrument sein, um verborgene Talente zu erschließen, Kompetenzlücken aufzudecken und Wege zur Verbesserung aufzuzeigen.

Mit einem guten Verständnis der Herausforderungen und Fallstricke bei der Gestaltung von Beurteilungen sind Sie gut gerüstet, um sich auf den Weg zu machen, eine effektive Beurteilung zu entwerfen. Befolgen Sie die Grundsätze der Objektivität, Zuverlässigkeit, Gültigkeit und Fairness und Sie werden Beurteilungen entwerfen, die nicht nur das Lernen messen, sondern auch ein Umfeld des Wachstums fördern.

In der nächsten Folge der Serie "Datengestützte Weiterbildung" werden wir uns mit einem Rahmen für die Bewertung der Datenkompetenz befassen. Bleiben Sie dran, um mehr darüber zu erfahren, wie Sie das volle Potenzial von Daten für die Weiterbildung Ihres Teams nutzen können!

Referenzen

Boring, E. G. (1923). Intelligenz, wie der Test sie misst. Die Neue Republik, 35, 35-37.

Foto von Paulius Dragunas auf Unsplash

Verfasst von

Sarah Hare

Sarah is a Senior Data Science Expert at Xebia with a background in psychology and decision neuroscience. She enjoys writing about topics at the intersection of data science and human behavior.

Contact

Let’s discuss how we can support your journey.