Blog

Perspektive: Wie KI-Agenten Fähigkeiten lernen - Einblicke aus dem RockBot-Experiment

Rockford Lhotka

Aktualisiert Mai 20, 2026

10 Minuten

KI-Agenten-Perspektiven. Persönliche Serie von Rocky Lhotka, VP Strategy bei Xebia

Lesen Sie den vorherigen Beitrag aus dieser Serie:

1. Perspektive: Cloud-native KI-Agenten-Frameworks - Das RockBot-Experiment →.

2. Perspektive: Das Gedächtnis von KI-Agenten - Einsichten aus dem RockBot-Experiment →.

3. Perspektive: Multi-Agenten-KI-Systeme - Erkundung des "Band"-Konzepts →

Wenn Menschen darüber nachdenken, was einen KI-Agenten fähig macht, denken sie meist an das zugrunde liegende Modell. Größeres Modell, klügerer Agent. Aber in der Praxis kommt ein großer Teil der Nützlichkeit eines Agenten von etwas viel Einfacherem: dem Wissen, wie man Dinge in Ihrer spezifischen Umgebung tut.

Ein Allzweck-LLM weiß, dass es E-Mail gibt. Er weiß nicht, dass Ihr Unternehmen alle Supportanfragen über ein bestimmtes Label leitet, dass der MCP-Server, den Sie verwenden, eine Eigenart hat, bei der das Threading anders funktioniert als erwartet, oder dass Sie auf die harte Tour gelernt haben, bei einer bestimmten Art von Nachricht niemals alles zu beantworten. Diese Art von prozeduralem, kontextspezifischem Wissen muss im Laufe der Zeit aufgebaut werden - und es muss im richtigen Moment an die Oberfläche kommen.

Das ist das Problem, das RockBot mit seinen Fähigkeiten lösen soll.

Was Fähigkeiten wirklich sind

In RockBot ist eine Fähigkeit einfach eine Markdown-Datei. Sie hat einen Namen, einen Inhalt, der beschreibt, wie man etwas tut, und eine kurze, automatisch generierte Zusammenfassung. Nichts Exotisches.

Was Fähigkeiten nützlich macht, ist das, was sie darstellen: destilliertes prozedurales Wissen. Keine allgemeinen Fakten, sondern spezifische Anweisungen, wie Aufgaben in einer bestimmten Umgebung zu erledigen sind. Eine Fähigkeit könnte beschreiben, wie man eine Besprechung in mehreren Kalendern plant, wie man eine Aufgabe der Forschungsdelegation strukturiert oder wie man einen bestimmten Sonderfall bei der Verwendung eines MCP-Servers behandelt. Fähigkeiten sind der Unterschied zwischen einem Agenten, der weiß, dass es E-Mails gibt, und einem Agenten, der tatsächlich weiß, wie man Ihre E-Mails bearbeitet.

Skills werden auf der Festplatte gespeichert, nach Kategorien geordnet und zusammen mit dem Rest der Agentenkonfiguration versionskontrolliert. Das bedeutet, dass sie überprüfbar sind, gemeinsam genutzt werden können und wiederherstellbar sind. Wenn ein Agent etwas Falsches lernt, können Sie es direkt korrigieren. Wenn Sie einen Agenten mit Wissen über Ihre Systeme ausstatten möchten, bevor er von sich aus lernt, können Sie auch das tun.

Warum Fähigkeiten wichtiger sind, als Sie vermuten

Die meisten KI-Agenten-Frameworks konzentrieren sich auf Tools: Geben Sie dem Agenten Zugang zu APIs, lassen Sie ihn diese aufrufen. Tools sind notwendig, aber nicht ausreichend.

Werkzeuge sagen dem Agenten, welche Aktionen möglich sind. Fähigkeiten sagen dem Agenten, wie er diese Aktionen gut nutzen kann. Und in der realen Welt ist die Kluft zwischen diesen beiden Dingen enorm.

Wenn Sie einem Agenten zum ersten Mal Zugang zu einem neuen MCP-Server gewähren - z.B. zu einem, der mit Ihrem Projektmanagement-System verbunden ist - kann er die Beschreibungen der Tools lesen und sich wahrscheinlich durchwursteln. Aber er wird Fehler machen. Er wird Operationen in der falschen Reihenfolge versuchen, die Bedeutung bestimmter Felder falsch interpretieren oder subtile Beschränkungen übersehen, die aus dem Schema nicht ersichtlich sind. Mit der Zeit und durch Interaktion sollte es lernen. Die Frage ist nur, ob dieses Lernen von Dauer ist.

Ohne so etwas wie Fähigkeiten ist das nicht möglich. Jede Sitzung beginnt neu. Der Agent macht die gleichen Fehler wie letzte Woche, denn er hat keine Erinnerung daran, dass er sie gemacht hat. Fähigkeiten schließen diese Schleife: Wenn ein Agent etwas lernt, das er behalten sollte, schreibt er eine Fähigkeit auf. Wenn er das nächste Mal etwas Ähnliches tun muss, ruft er die entsprechende Fähigkeit ab und beginnt mit einer besseren Ausgangssituation.

Geschlossene Rückkopplungsschleifen

Bei Kontrollsystemen gibt es ein Konzept, das als geschlossene Rückkopplungsschleife bezeichnet wird: Die Ausgabe eines Systems fließt in das System selbst zurück, um das zukünftige Verhalten zu korrigieren und zu verbessern. Ein System mit offenem Regelkreis hat dagegen keinen solchen Korrekturmechanismus - es läuft einfach, unabhängig davon, wie gut oder schlecht es sich verhält.

Die meisten KI-Agentensysteme sind heute ein offener Kreislauf. Der Agent macht Dinge. Wenn er sie schlecht macht, korrigieren Sie ihn in der Unterhaltung. Aber diese Korrektur verpufft am Ende der Sitzung. Das nächste Gespräch beginnt wieder bei Null.

Das Skill-System von RockBot ist ein Mechanismus, um diesen Kreislauf zu schließen. Das Feedback der Benutzer - sowohl explizit (Daumen hoch oder runter für eine Antwort) als auch implizit (Korrekturen während eines Gesprächs) - fließt in die Fähigkeiten des Agenten ein. Der Agent tut nicht einfach nur etwas, er lernt daraus, und zwar auf eine Art und Weise, die Bestand hat.

Das ist in der Praxis sehr wichtig. Wenn ein Agent zum ersten Mal einen komplexen, mehrstufigen Arbeitsablauf bearbeitet, wird er wahrscheinlich ungeschickt sein. Mit einer geschlossenen Feedbackschleife profitiert jeder nachfolgende Versuch von dem, was zuvor gelernt wurde. Ohne eine solche Schleife trainieren Sie die gleiche Sitzung jedes Mal von Grund auf neu.

Die richtigen Fähigkeiten zur richtigen Zeit einbringen

Die Speicherung von Fähigkeiten auf der Festplatte ist nur dann sinnvoll, wenn der Agent die richtigen Fähigkeiten zur richtigen Zeit abruft. Sie können nicht einfach jede Fähigkeit bei jedem Zug in das Kontextfenster laden - das wäre teuer, laut und würde andere relevante Informationen verdrängen.

RockBot verwendet zwei Mechanismen, um dies zu handhaben.

Injektion zu Beginn der Sitzung. Zu Beginn jeder Sitzung erhält der Agent einen strukturierten Index aller verfügbaren Fähigkeiten: Namen, automatisch generierte einzeilige Zusammenfassungen, Alter und Zeitstempel der letzten Verwendung. Dieser Index wird einmal pro Sitzung und nicht bei jedem Zug injiziert. Der Agent weiß nun, welche Fertigkeiten vorhanden sind, ohne dass er deren gesamten Inhalt laden muss.

BM25 Rückruf bei jeder Runde. Wenn eine Benutzernachricht eintrifft, führt RockBot eine BM25-Schlüsselwortsuche im Skill Store durch, um die relevantesten Skills für das Gesprächsthema zu finden. BM25 ist ein wohlbekannter Suchalgorithmus - dieselbe Familie von Techniken, die hinter vielen Dokumentensuchsystemen steckt - der die Fähigkeiten danach bewertet, wie gut ihr Inhalt mit der aktuellen Anfrage übereinstimmt.

Fähigkeiten, die bei dieser Suche auftauchen, werden in den Kontext dieser Runde eingefügt. Aber hier ist das entscheidende Detail: Sobald eine Fähigkeit in einer Sitzung injiziert wurde, wird sie nicht mehr injiziert. Dieser Ansatz der "Delta-Injektion" bedeutet, dass der Agent immer wieder neue Informationen erhält, anstatt immer wieder die gleichen Fähigkeiten zu laden. Wenn das Gespräch das Thema wechselt, tauchen ganz natürlich verschiedene Fähigkeiten auf.

Über seeAlso können Sie auch Querverweise auf andere Fähigkeiten herstellen. Wenn eine Fähigkeit abgerufen wird, kommen auch die damit verbundenen Fähigkeiten für den Abruf in Frage. Dies ermöglicht eine Art zufällige Entdeckung - der Agent hat vielleicht nicht nach einer bestimmten Fähigkeit gesucht, aber weil sie mit etwas verwandt ist, wonach er gesucht hat, taucht sie auf und wird verfügbar.

Das Ergebnis ist ein System, in dem der Agent über alles Bescheid weiß, was er weiß (über den Index), und effizient auf das zugreifen kann, was gerade relevant ist (über BM25 Recall und Delta Injection), ohne die Kosten für das Laden aller Daten im Voraus tragen zu müssen.

Wie Fertigkeiten geschaffen werden

Skills werden vom Agenten selbst erstellt, indem er das Tool SaveSkill verwendet. Wenn der Agent auf einen Arbeitsablauf stößt, den er voraussichtlich wiederholen wird, oder wenn er etwas Bestimmtes über eine Umgebung oder eine Integration erfährt, schreibt er eine Fähigkeit.

Nach dem Speichern verwendet eine Hintergrundaufgabe den LLM, um eine kurze einzeilige Zusammenfassung - maximal fünfzehn Wörter - zu erstellen, in der beschrieben wird, was die Fertigkeit umfasst und wann sie zu verwenden ist. Diese Zusammenfassung wird beim Start der Sitzung im Index der Fertigkeiten angezeigt. Der Agent sieht sie und kann schnell entscheiden, ob er den gesamten Inhalt der Fertigkeit abrufen möchte.

Der Agent kann auch bestehende Fähigkeiten aktualisieren, wenn sich sein Verständnis verbessert, und Fähigkeiten löschen, die nicht mehr zutreffend oder relevant sind. Fähigkeiten sind lebendige Dokumente, keine statischen.

Wie sich Fertigkeiten mit der Zeit verbessern

Fähigkeiten zu schaffen ist der einfache Teil. Schwieriger ist es, sie im Laufe der Zeit korrekt und nützlich zu halten.

RockBot erledigt dies durch eine feedbackgesteuerte Hintergrundverarbeitung.

Explizites Feedback. Die Chat-Benutzeroberfläche unterstützt Daumen hoch und Daumen runter für die Antworten der Agenten. Positives Feedback verstärkt das Muster - eine Notiz wird an den Gesprächsverlauf angehängt und signalisiert, dass der Ansatz gut aufgenommen wurde. Negatives Feedback löst etwas Bedeutsameres aus: Der Agent bewertet seine Antwort neu und hat dabei vollen Zugriff auf sein Toolset, einschließlich Fähigkeiten, Speicher und MCP-Integrationen. Er kann bestehende Fähigkeiten zu Rate ziehen, sie aktualisieren, wenn sie ihn in die Irre geführt haben, oder neue erstellen, die erfassen, was er hätte anders machen sollen. Beide Arten von Feedback werden in einem Feedback-Speicher für die spätere Analyse aufgezeichnet.

Anti-Pattern-Mining. Der Dream Service - ein Hintergrundprozess, der in regelmäßigen Abständen läuft, wenn der Agent im Leerlauf ist - durchsucht die gesammelten Korrekturrückmeldungen nach Fehlermustern. Wenn er sie findet, erstellt er anti-patterns/{domain} Speichereinträge, die als Beschränkungen erscheinen. "Tun Sie X nicht wegen Y; tun Sie stattdessen Z." Diese Anti-Muster werden über denselben BM25-Mechanismus wie Fähigkeiten abgerufen, so dass der Agent sie sieht, wenn er etwas tun soll, für das er zuvor korrigiert wurde.

Konsolidierung der Fertigkeiten. Der Dream Service übernimmt auch die laufende Pflege der Fähigkeiten selbst. Er sucht nach sich überschneidenden Fertigkeiten und führt sie zusammen, löscht veraltete Fertigkeiten, die schon lange nicht mehr verwendet wurden, erkennt Cluster verwandter Fertigkeiten, die darauf hindeuten, dass eine abstrakte übergeordnete Fertigkeit nützlich wäre, und verbessert strukturell spärliche Fertigkeiten - solche, die zu kurz sind, um wirklich nützlich zu sein. Diese Konsolidierung erfolgt automatisch, ohne dass der Benutzer explizit eingreifen muss.

Verfolgung der Nutzung. Jedes Mal, wenn eine Fertigkeit über GetSkill abgerufen wird, wird ihr LastUsedAt Zeitstempel aktualisiert. Dies gibt dem Dream Service das Signal, das er für die Erkennung von Staleness benötigt: eine Fertigkeit, die seit Monaten nicht mehr verwendet wurde, ist ein Kandidat für das Pruning, insbesondere wenn ihr Inhalt dünn ist. Fähigkeiten, die häufig abgerufen werden, werden als wertvoll angesehen und sind eher Kandidaten für eine Optimierung als für eine Streichung.

Die Wirkung im Laufe der Zeit

Am Ende haben Sie einen Agenten, der bei seiner Arbeit immer besser wird, je mehr Sie ihn verwenden. Nicht auf eine vage, schwer zu messende Art und Weise, sondern ganz konkret: Bestimmte Arbeitsabläufe werden zuverlässiger, Randfälle, die Probleme verursacht haben, werden korrekt behandelt und der Agent macht nicht mehr dieselbe Klasse von Fehlern, für die er zuvor korrigiert wurde.

Das ist es, was es bedeutet, die Feedbackschleife zu schließen. Das Verhalten des Agenten wird nicht nur durch die allgemeinen Fähigkeiten des LLM bestimmt - es wird durch eine angesammelte Schicht von spezifischem, kontextbezogenem Wissen geformt, das mit der Zeit wächst und sich verfeinert.

In der ersten Woche mit einem neuen Agenten korrigieren Sie eine Menge. Nach einem Monat korrigieren Sie viel weniger. Das Kompetenzsystem ist der Mechanismus, der diese Entwicklung möglich macht.

Wenn Sie sehen möchten, wie das in der Praxis funktioniert, finden Sie den vollständigen Quellcode unter https://github.com/MarimerLLC/rockbot. Der Code, der sich auf die Fähigkeiten bezieht, befindet sich in RockBot.Skills, während die agentenbezogene Handhabung in RockBot.Agent zu finden ist. Das Ganze ist Open Source und steht unter der MIT-Lizenz.

Dieser Beitrag erschien ursprünglich auf llhotka.net

Lesen Sie den nächsten Beitrag aus dieser Serie: Perspektive: KI-Agenten-Tools und -Ressourcen - Ein Überblick für Praktiker →

Xebia Lösung

Agentische Orchestrierung

Unsere Agent Orchestration Platform ist ein sofort einsatzbereites, auf Azure basierendes System, das mehrere spezialisierte KI-Agenten intelligent koordinieren kann, um komplexe Geschäftsprozesse abzuwickeln.

Lösung ansehen

Tags:

Agentische KI

Verfasst von

Rockford Lhotka

Hello, I’m Rocky Lhotka, software architect, open source contributor, author, and speaker. I am VP of Strategy for Xebia-Microsoft Services USA and Chief Software Architect at Marimer LLC. Find me at; Mastodon: @rockylhotka@fosstodon.org GitHub: rockfordlhotka Link tree: Rockford Lhotka

Unsere Ideen

Weitere Blogs

Alle anzeigen

‌

Wo die GitHub Copilot Erweiterungspunkte die Governance brechen

Viele der jüngsten Ergänzungen des GitHub Copilot-Ökosystems bieten einen echten Mehrwert für einzelne Entwickler, erweitern aber auch die...

Rob Bos

‌

Von Datenpipelines zu agentenbasierten Workflows: Ein Wandel im Analytics...

Yannick Bosch

‌

Perspektive: KI-Agenten-Tools und -Ressourcen – Ein Überblick für...

Agenten ohne Werkzeuge sind in keinem realen Szenario von großem Nutzen. Das RockBot Framework bietet eine Reihe von Subsystemen, die Sie beim Aufbau...

Rockford Lhotka

‌

GitHub Copilot – Umstellung von Premium Request Units auf nutzungsbasierte...

Das PRU-basierte Abrechnungsmodell für GitHub Copilot wird ab dem 1. Juni 2026 in ein nutzungsbasiertes Abrechnungsmodell umgewandelt. Erfahren Sie,...

Rob Bos

Contact

Let’s discuss how we can support your journey.

‌

Antwort

Verwandte Themen

Kontextdateien

Verwandte Themen

Perspektive: Wie KI-Agenten Fähigkeiten lernen - Einblicke aus dem RockBot-Experiment

Rockford Lhotka

Was Fähigkeiten wirklich sind

Warum Fähigkeiten wichtiger sind, als Sie vermuten

Geschlossene Rückkopplungsschleifen

Die richtigen Fähigkeiten zur richtigen Zeit einbringen

Wie Fertigkeiten geschaffen werden

Wie sich Fertigkeiten mit der Zeit verbessern

Die Wirkung im Laufe der Zeit

Agentische Orchestrierung

Verfasst von

Rockford Lhotka

Weitere Blogs

Wo die GitHub Copilot Erweiterungspunkte die Governance brechen

Von Datenpipelines zu agentenbasierten Workflows: Ein Wandel im Analytics...

Perspektive: KI-Agenten-Tools und -Ressourcen – Ein Überblick für...

GitHub Copilot – Umstellung von Premium Request Units auf nutzungsbasierte...

Let’s discuss how we can support your journey.