Blog

GitHub Copilot - Umstellung von Premium Request Units auf nutzungsbasierte Abrechnung

Das PRU-basierte Abrechnungsmodell für GitHub Copilot wird ab dem 1. Juni 2026 in eine nutzungsbasierte Abrechnung (Usage Based Billing, UBB) umgewandelt. Erfahren Sie, was diese Änderung für Ihr Unternehmen bedeutet.

Rob Bos

Rob Bos

Aktualisiert Mai 20, 2026
10 Minuten

Seit fast einem Jahr kennen wir die Premium Request Unit (PRU), die für die Abrechnung der Nutzung von GitHub Copilot verwendet wird: Wann immer Sie einem Modell eine Frage stellen, verwenden Sie eine PRU mit einem angehängten Multiplikator. Dies gilt für Anfragen in der Chat-Oberfläche, jede Anfrage in der CLI und die Aufforderung an den Copilot Cloud Agent (CCA), Änderungen für Sie zu planen oder zu implementieren. Darüber hinaus wird CCA auch für die Dauer der Laufzeit (GitHub Action-Minuten) in Rechnung gestellt, da diese in GitHub Actions gehostet wird. Weitere Informationen finden Sie in der Dokumentation →.

Dieses Modell bietet den Kunden ein hervorragendes Preis-Leistungs-Verhältnis, da alle Modellanbieter nach Token abrechnen, was bedeutet, dass Sie für eine PRU auf der GitHub-Seite Millionen von Token des Modellanbieters verwenden können. Bisher brauchten wir nur einen Blick auf die PRUs zu werfen, was dazu führte, dass Nutzer, die diese PRU intensiv nutzten (und im Hintergrund eine Menge Token verbrauchten), nicht auffielen.

Nun wird die PRU-basierte Abrechnung ab dem 1. Juni 2026 in eine nutzungsbasierte Abrechnung (Usage Based Billing, UBB) umgewandelt, da GitHub einen starken Anstieg der Nachfrage nach KI-Funktionen auf der Plattform verzeichnet hat. Das bedeutet, dass die Kunden ihre tatsächlichen Kosten pro Nutzung bezahlen werden, statt der berechneten PRUs.

Was sind Premium Requests noch mal?

Wissenswertes über Premium Request Units:

  • Die Multiplikatoren für PRUs werden je nach Modell angewendet: Verwenden Sie ein leistungsstarkes Modell mit tiefgreifenden Überlegungen, wie Claude Opus 4.5 und 4.6? Das hat einen Multiplikator von 3x, d.h. jede Chat-Runde bedeutet, dass Sie 3 PRUs statt 1 erhalten.
  • Verwenden Sie ein kleineres Modell wie GPT-5.4 mini? Das benötigt weniger Rechenleistung, um es zu hosten, was zu einem 0,33-fachen Multiplikator führt.
  • Seit den Anfängen der PRU's haben wir immer die Basismodelle wie GPT-4o und GPT-4.1 kostenlos in den Service aufgenommen, oder 0x PRU's dafür.
  • Mit dem "Automodus" lassen Sie GitHub Copilot anhand der Komplexität der Eingabeaufforderung und der Rechenbeschränkungen, die er auf der Hosting-Seite sieht, auswählen, welches Modell verwendet werden soll. Wenn Sie den automatischen Modus verwenden, erhalten Sie einen Rabatt von 10% auf Ihre PRU-Kosten.

Je nachdem, welchen Plan Sie für Copilot haben, sind die PRUs im Lizenzpreis enthalten:


Sie können Overages auf der enthaltenen PRU konfigurieren, indem Sie Budgets erstellen. Ein Budget ist eine Gruppe von Benutzern, die zusammen Zugriff auf die von Ihnen konfigurierten Dollarbeträge für Überschreitungskosten erhalten. Sie können zum Beispiel ein Budget von $100 für 10 Benutzer einrichten. Jedes Mal, wenn ein Benutzer eine PRU nutzt, die sein monatliches Kontingent übersteigt, kostet jede PRU $ 0,04. Für $100 stehen dieser Gruppe von 10 Nutzern also 400 PRUs zur Verfügung. Das Schwierige dabei ist, dass ein einziger Benutzer das überschüssige Kontingent für die Gruppe aufbrauchen kann, so dass die anderen 9 Techniker keine PRU-Optionen mehr haben (sobald sie ihr monatliches Kontingent an PRUs gemäß ihrem Plan überschreiten).

Wenn Sie noch mehr über PRU erfahren möchten, lesen Sie unseren Blogpost hier: GitHub Copilot Premium Anfragen →

Bekommen Sie Ihren PRU-Überschuss in den Griff

Wir haben unseren Kunden immer geraten, die PRU-Nutzung ihrer Techniker im Auge zu behalten und es als Gesprächsanlass zu nutzen, wenn Techniker viele PRUs nutzen. Es gibt immer eine Mischung aus Anwendern, die die ihnen zur Verfügung stehenden PRUs optimal nutzen, und Anwendern, die sie bis zum10. des Monats aufgebraucht haben. Wir sind dafür, uns anzuschauen, wie die Benutzer mit den PRUs arbeiten, damit wir die verschiedenen Teammitglieder erreichen und verstehen können, wie sie sie nutzen und das Beste aus den ihnen zur Verfügung stehenden Tools herausholen. Sie wollen die Benutzer nicht davon abhalten, PRUs zu verwenden, denn es ist ein wertvolles Werkzeug, das ihnen bei ihrer täglichen Arbeit hilft, aber Sie müssen die Kosten im Griff haben und verstehen, wo der Mehrwert liegt. Im schlimmsten Fall finden Sie einen Ingenieur, der gehört hat, dass er Claude Opus für alles verwenden muss, und der nicht mehr darüber nachdenkt, welches Modell er für welche Aufgabe verwenden soll. Die Fast-Mode-Version von Opus 4.6 hat derzeit einen 30-fachen [JW1] [RB2] -Multiplikator, so dass das PRU- und Overage-Budget ziemlich schnell aufgebraucht sein kann! Ingenieure müssen wissen, welches Modell sie für welche Aufgabe verwenden sollten. Eine gängige Faustregel ist, dass Sie Ihre Änderungen im Plan-Modus mit einem teureren Modell (z.B. Opus 4.7, 7.5x[JW3] ) planen und diese Änderungen dann in einem neuen Chat-Turn mit einem weniger teuren Modell (z.B. Claude Haiku bei 0,33x oder GPT-5 mini bei 0x) umsetzen. Der Unterschied besteht darin, dass Sie ein leistungsfähigeres Modell für die Erstellung des Plans und das weniger leistungsfähige Modell für die Umsetzung dieses Plans in Änderungen an der Codebasis verwenden. Die meisten Modelle sind sehr gut in der Lage, diese Änderungen zu implementieren, da die gesamte harte "Denkarbeit" bereits von dem teureren Modell übernommen wurde.

Um die Kosten in den Griff zu bekommen, helfen wir unseren Kunden bei der Einführung eines Basisbudgets mit Warnsignalen, wenn die Benutzer 75 % dieses Budgets verbraucht haben. Dann aktualisieren Sie das Budget auf die nächste Stufe. So haben Sie einen regelmäßigen Zeitpunkt, an dem Sie sich die Nutzung ansehen und ein Gefühl dafür bekommen, wie sich die Kosten im Laufe der Zeit entwickeln. Sie können auch die REST-API für PRU(https://docs.github.com/en/rest/billing/usage?apiVersion=2026-03-10#get-billing-premium-request-usage-report-for-an-organization) verwenden, um das Laden der Informationen in Ihre Berichts- oder Beobachtungsplattform zu automatisieren. Sie können die PRU-Nutzung auch von GitHub herunterladen und in unseren Analyzer unter https://xebia.github.io/github-copilot-premium-reqs-usage einspeisen . Dieser zeigt an, wie viele Personen ihr PRU-Kontingent am Ende des Monats überschreiten werden, so dass Sie diese Kosten entsprechend planen können.

Mithilfe dieser Tools haben wir Leute gefunden, die alle ihre PRUs am10. des Monats (und sogar früher) aufgebraucht haben. Das gab uns die Möglichkeit, diese Ingenieure zu kontaktieren und mehr über ihren Tool-Stack zu erfahren und darüber, wie sie GitHub Copilot zusätzlich verwenden.

Eingehende Änderungen

Mit diesem Blogpost hat GitHub angekündigt, dass es ab dem1. Juni 2026 aufhören wird, Nutzern und Unternehmen Premium Request Units in Rechnung zu stellen, und stattdessen Token verwendet, um die von Nutzern verursachten Rechenkosten abzurechnen.

Alle Modellanbieter arbeiten schon seit geraumer Zeit an dieser Prämisse, und GitHub folgt diesem Beispiel, da die Infrastrukturkosten für das Hosten von KI massiv ansteigen.
Ein Token ist die Einheit von Ein- und Ausgabedaten für ein Large Language Model (LLM). Die LLMs arbeiten mit Wortteilen, um den nächsten Teil des Wortes in einem Satz vorherzusagen. Das war von Anfang an die grundlegende Methode für LLMs. Das bedeutet, dass jedes Token, das als Eingabe an ein Modell gesendet wird, Rechenleistung (GPU/CPU/RAM/Festplatte/Netzwerk) in einem Rechenzentrum verbraucht, das von GitHub oder einem anderen Modellanbieter gehostet wird. Diese Rechenleistung ist mit Kosten verbunden und diese Kosten werden nun an den Endnutzer weitergegeben.

Das bedeutet, dass der Einfluss des von Ihnen gewählten Redakteurs, des Modells und der Argumentation nun wirklich wichtig wird, da diese Entscheidungen nun finanzielle Auswirkungen haben!

Zu ergreifende Maßnahmen

Um ein Verständnis für das Verhalten Ihrer Nutzer mit KI zu erlangen, ist es wichtig, diese Informationen zu visualisieren. Um unerwünschte Kosten zu vermeiden, beginnen Sie mit der Konfiguration eines Budgets für die KI-Gutschriften: Budgets auf Benutzerebene sind in Vorbereitung, und wir empfehlen Ihnen, diese zunächst mit ihrem monatlichen Budget zu konfigurieren. Richten Sie dann eine Möglichkeit ein, mit der die Benutzer entweder Überschussoptionen anfordern oder automatisch erkennen können, dass sie sich ihrem Budget nähern, und dann das Budget erhöhen. So können Sie feststellen und verhindern, dass Benutzer ihr gesamtes Budget für ein Modell mit hohen Token-Kosten für einfache Aufgaben ausgeben, so dass Sie diese Techniker anleiten und schulen können.

Wie können Sie sich über die Verwendung Ihres Tokens informieren?

Die Änderungen bedeuten, dass wir uns mit unserer Token-Nutzung auseinandersetzen müssen. GitHub hat sich immer davor gedrückt, diese Informationen dem Endbenutzer zu zeigen, indem es sie in PRUs abstrahiert hat. Jetzt müssen wir die Umstellung vornehmen und unsere Token-Nutzung verstehen.
GitHub baut Tools für seine Kunden auf, die ihre Token-Nutzung über die letzten Monate hinweg anzeigen. Wenn Sie gleich loslegen möchten, dann werfen Sie einen Blick auf die AI Engineering Fluency-Erweiterung, die eines unserer Teammitglieder entwickelt hat: → AI Engineering Fluency

Dieses Tool sieht sich Ihre lokalen Dateien an, in denen Copilot-Interaktionen gespeichert sind. Es unterstützt mehrere Editoren und CLI's:

  • Visual Studio Code (+ Codium-Derivate)
  • Visual Studio
  • GitHub Copilot CLI
  • OpenCode / Crush / und andere CLIs, die mit Ihrem Copilot-Abonnement funktionieren

Das Tool verfügt über Optionen zum Konfigurieren des Hochladens der Daten (Opt-in pro Benutzer aus Datenschutzgründen) in einen Cloud-Speicher, so dass Sie diese auf Team- oder Abteilungsebene analysieren und einige sinnvolle Vorhersagen über Ihren Token-Verbrauch treffen können.

Mit diesem Tool haben wir gelernt, dass eine durchschnittliche Chatsitzung zwischen 1 und 3 Millionen Token umfasst, je nachdem, was der Ingenieur gerade macht und wie lange die Unterhaltung dauert.

Um die Kosten für diese Sitzungen zu berechnen, müssen wir die Faktoren verstehen, die die Kostenberechnung bestimmen. Dies wird anhand einer Reihe von Datenpunkten bestimmt:

  1. Die Kosten werden pro 1 Million Token berechnet
  2. Die Eingabe-Token sind weniger kostspielig als die Ausgabe-Token, da die Eingabe-Token als Teil der anfänglichen Aufforderung verwendet werden und das Modell keine Vorhersage für sie treffen muss. Die Vorhersage erfolgt auf der Ausgabeseite
  3. Einige Modelle und Anbieter unterstützen das Zwischenspeichern von Token. Das bedeutet, dass während einer Chat-Konversation die alte Chat-Runde zwischengespeichert werden kann, wodurch weniger Kosten entstehen.

Nehmen wir also die niedrigere Zahl von 1 Million Token als Beispiel für die Berechnung der tatsächlichen Kosten bei einer Abrechnung auf Token-Basis. Jeder Modellanbieter verfügt über Preisinformationen. Die Dokumentation für die Modelle von Anthropic finden Sie zum Beispiel hier: https://platform.claude.com/docs/en/about-claude/pricing.

Eine zusammengefasste Version finden Sie in der Tabelle, damit Sie besser verstehen, wie die Berechnung durchgeführt wird:


Hinweis: Bei den Kosten pro Schreibzugriff und den Kosten pro Lesezugriff, die oft weniger kosten als die Input/Output-Tokens, ist auch Caching im Spiel. Die zwischengespeicherten Informationen sind in den Copilot-Informationen zum Zeitpunkt dieses Schreibens nicht verfügbar, so dass sie hier nicht berücksichtigt werden.

Bei einer durchschnittlichen Chat-Konversation, die 1 Mio. Token beansprucht, sehen Sie sofort, dass sich dies auf die Kosten auswirkt, die durch die Wahl Ihres Modells und Ihres Editors entstehen, da der Editor entscheidet, welchen Kontext er an das Modell senden möchte (oder nicht!). Wenn Ihr Editor also Ihr gesamtes Repository zur Analyse an das Modell übermitteln möchte, dann werden Ihre Eingabetoken in die Höhe schnellen. Das Gleiche gilt für den Aufwand für das Reasoning: Die meisten Modelle haben heutzutage einen Schalter, mit dem Sie den Aufwand für das Reasoning ihrer Aufgabe einstellen können. Das reicht von Niedrig über Mittel bis Hoch, und einige Modelle haben sogar eine Option Extra Hoch. Das hat unmittelbare Auswirkungen auf Ihren Plättchenverbrauch und damit auf die Kosten.

Natürlich müssen wir Input/Output und zwischengespeicherte Token berücksichtigen. Nehmen wir also an, dass wir für die durchschnittliche Chatsitzung von 1 Million die 80/20-Regel befolgen: 80% sind Input-Token und wir verwenden ein normales Modell wie Claude Sonnet 4.6:


Und natürlich können wir die gleiche Berechnung auch durchführen, wenn wir stattdessen Claude Opus 4.7 verwenden:


Die Erweiterung berücksichtigt diese Berechnungen und zeigt die Gesamtkosten über die tatsächliche Nutzung des Ingenieurs in den letzten 30 Tagen an:


Werkzeuge von GitHub

Um Ihnen dabei zu helfen, hat GitHub ein neues Tool entwickelt, das in Kürze veröffentlicht werden wird. Es kann Ihnen dabei helfen, zu verstehen, wie Ihre Enterprise-Benutzer KI-Guthaben verwenden und sie mit der PRU-Abrechnung vergleichen. Bis dahin können Sie die obige VS Code-Erweiterung verwenden.

Wie kann Xebia helfen?

Wir helfen unseren Kunden, den größten Nutzen aus GitHub Copilot zu ziehen, indem wir Ingenieure weiterbilden, Führungskräfte bei Governance-Themen anleiten und bei dieser Art von Budgetierung und Prognosen in größerem Umfang helfen.

Weitere Informationen finden Sie hier: GitHub Partnerschaft → oder wenden Sie sich an einen unserer Verkäufer:

  • Die Niederlande: Matthias Walgers: matthias.walgers@xebia.com
  • Belgien: Freddy Aben: freddy.aben@xebia.com
  • DACH-Region: Marko Sawall: marko.sawall@xebia.com
  • USA: Brooke Vorhees: brooke.vorhees@xebia.com

Verfasst von

Rob Bos

Rob has a strong focus on ALM and DevOps, automating manual tasks and helping teams deliver value to the end-user faster, using DevOps techniques. This is applied on anything Rob comes across, whether it’s an application, infrastructure, serverless or training environments. Additionally, Rob focuses on the management of production environments, including dashboarding, usage statistics for product owners and stakeholders, but also as part of the feedback loop to the developers. A lot of focus goes to GitHub and GitHub Actions, improving the security of applications and DevOps pipelines. Rob is a Trainer (Azure + GitHub), a Microsoft MVP and a LinkedIn Learning Instructor.

Contact

Let’s discuss how we can support your journey.