Das Tongyi Lab von Alibaba hat AgentEvolver vorgestellt, ein neues Framework, das es KI-Agenten ermöglicht, sich selbst zu trainieren, um die hohen Kosten und den manuellen Aufwand bei der KI-Entwicklung zu senken.

Das System nutzt drei Kernmechanismen für autonomes Lernen. Durch die „Selbstbefragung“ können Agenten ihre eigenen Trainingsaufgaben erstellen, durch die „Selbstnavigation“ werden frühere Erfahrungen wiederverwendet, um die Erkundung zu leiten, und durch die „Selbstzuschreibung“ wird das Lernen verfeinert, indem den richtigen Aktionen Anerkennung zugewiesen wird.

Dieser Ansatz macht das KI-Training effizienter und skalierbarer. In frühen Benchmarks ermöglichte AgentEvolver kleineren KI-Modellen, viel größere zu übertreffen, was einen bedeutenden Schritt in Richtung einer wirtschaftlich nachhaltigen Agentenentwicklung darstellt.

Von manueller Arbeit zur Selbstentwicklung: Ein neues Trainingsparadigma

Aktuelle Methoden zur Entwicklung leistungsfähiger KI-Agenten sind bekanntermaßen teuer und langsam. Sie stützen sich oft auf Pipelines für Reinforcement Learning (RL), die riesige, manuell erstellte Aufgabendatensätze und eine ineffiziente, zufällige Erkundung erfordern.

AgentEvolver begegnet diesen Engpässen direkt, indem es die Lerninitiative von menschlichen Ingenieuren auf die KI selbst verlagert. Das Forschungsteam stellt in seinem Artikel eine zentrale Frage: „Warum nicht dem Modell selbst mehr Autonomie bei der Steuerung seines eigenen Lernprozesses anvertrauen?“

Anstatt auf von Menschen erstellte Datensätze zu warten, ermöglicht der „Selbstbefragungs“-Mechanismus des Frameworks einem Agenten, eine digitale Umgebung zu erkunden und autonom seine eigenen Trainingsaufgaben zu generieren.

Dieser auf Neugier basierende Ansatz verringert die Abhängigkeit von kostspieligen handgefertigten Daten. Es ermöglicht dem System, die funktionalen Grenzen einer Umgebung zu entdecken und einen vielfältigen Lehrplan für sich selbst zu erstellen.

Wir freuen uns, AgentEvolver herauszubringen, ein Open-Source-Agentensystem, das sich selbst weiterentwickelt.
AgentEvolver integriert drei synergistische Mechanismen – Selbstbefragung, Selbstnavigation und Selbstattributierung – um kritische Engpässe in Agent RL systematisch anzugehen … pic.twitter.com/VnrE7ftyyu

– Tongyi Lab (@Ali_TongyiLab) 18. November 2025

Durch die Analyse der eigenen Erfolge und Misserfolge verbessert die „selbstnavigierende“ Komponente die Explorationseffizienz. Es destilliert vergangene Flugbahnen in wiederverwendbare Erfahrungen und führt den Agenten zu effektiveren Strategien für zukünftige Aufgaben.

Dadurch bewegt sich der Prozess weg von Brute-Force-Trial-and-Error hin zu gezielterem und intelligenterem Lernen.

AgentEvolver hin zu einem effizienten, sich selbst weiterentwickelnden Agentensystem

 
Schließlich verbessert die „Selbstzuordnung“ die Stichprobeneffizienz durch die Zuweisung feinkörniger Belohnungen. Herkömmliche RL-Methoden schreiben einer gesamten Abfolge von Aktionen häufig einen einzigen Ergebniswert zu. Das System von AgentEvolver analysiert den Beitrag jedes einzelnen Schritts und ermöglicht so präzisere und effektivere Richtlinienaktualisierungen.

Unter der Haube: Wie Selbstbefragung, Navigation und Zuschreibung funktionieren

Das AgentEvolver-Framework operationalisiert diese Konzepte durch ein einheitliches, End-to-End-System. Der Prozess beginnt damit, dass der Agent eine Umgebung untersucht, um deren Status-Aktionsraum zu verstehen. Anschließend synthetisiert es Aufgaben, die auf vordefinierte Präferenzen wie Schwierigkeitsgrad oder Stil abgestimmt sind, und stellt so sicher, dass der generierte Lehrplan sowohl vielfältig als auch relevant ist.

Um die Qualität dieser selbst erstellten Aufgaben zu gewährleisten, enthält das System eine Kurationspipeline, die Duplikate herausfiltert und überprüft, ob Lösungen ausführbar sind.

Dadurch wird sichergestellt, dass der Agent aus realisierbaren und wertvollen Beispielen lernt. Das Framework ist modular aufgebaut und ermöglicht Entwicklern die Integration in verschiedene Umgebungen und RL-Infrastrukturen.

Die Leistung bei anspruchsvollen Branchen-Benchmarks wie AppWorld und BFCL-v3 bestätigt diesen Ansatz. AgentEvolver steigerte die durchschnittliche Aufgabenerledigungsrate (avg@8) für Alibabas Qwen2.5-Modell mit 14B-Parametern in diesen Tests um bemerkenswerte 27,8 %.

Beim komplexen AppWorld-Benchmark war die Verbesserung sogar noch stärker, mit einem Anstieg von 30,7 Prozentpunkten gegenüber dem Basiswert. Diese Ergebnisse zeigen, dass kleinere, effizientere Modelle eine bessere Leistung erzielen können, wenn sie mit dieser sich selbst entwickelnden Methodik trainiert werden.

Ein Zweifrontenkrieg gegen die KI-Kosten: Training und Inferenz

Dieser Fokus auf wirtschaftliche Nachhaltigkeit ist ein zentraler Bestandteil der Strategie von Alibaba. Die Veröffentlichung von AgentEvolver, der auf Schulungskosten abzielt, folgt eng auf die kürzliche Vorstellung des Aegaeon-Systems durch das Unternehmen.

Aegaeon ist darauf ausgelegt, die KI-Inferenzkosten – den Preis für den Betrieb von Modellen in der Produktion – durch intelligente GPU-Planung um bis zu 82 % zu senken.

Zusammen stellen diese beiden Innovationen einen umfassenden Angriff auf die immensen Betriebskosten dar, die derzeit eine weit verbreitete KI-Einführung einschränken. Während AgentEvolver den Aufbau spezialisierter Agenten kostengünstiger macht, macht Aegaeon den Einsatz dieser Agenten kostengünstiger.

Diese zweigleisige Strategie ist entscheidend, um Alibabas weitläufigen Markt für Open-Source-und proprietäre KI-Modelle auf lange Sicht wirtschaftlich rentabel zu machen.

Ein neues Wettrüsten bei autonomen Agenten

Alibaba ist nicht der Einzige, der eine sich selbst verbessernde KI anstrebt. Das AgentEvolver-Papier wurde am selben Tag veröffentlicht, an dem Google DeepMind SIMA 2 ankündigte, einen KI-Agenten, der sich in komplexen 3D-Videospielen selbst neue Fähigkeiten beibringen kann. Diese parallele Entwicklung unterstreicht einen großen branchenweiten Vorstoß zur Schaffung autonomerer, generalistischer Agenten, die mit minimalem menschlichen Eingriff lernen können.

Während sich Googles Projekt auf virtuelle Welten als Sprungbrett zur realen Robotik konzentriert, zielt Alibabas AgentEvolver direkt auf das Entwickler-Ökosystem für digitale Aufgaben ab. Durch die Bereitstellung eines Frameworks, das die aufwändigsten Teile der Agentenentwicklung automatisiert, positioniert sich Alibaba, um eine neue Generation von KI-Anwendungen zu ermöglichen.

Dieser Schritt könnte die Agentenentwicklung demokratisieren und den Wettbewerb mit westlichen KI-Marktführern wie OpenAI und Anthropic intensivieren.

Mit der Veröffentlichung eines leistungsstarken, offenen Frameworks für die Entwicklung adaptiver, Tool-erweiterter Agenten setzt Alibaba darauf, dass der sicherste Weg zur Innovation darin besteht, Entwicklern die Werkzeuge an die Hand zu geben, mit denen sie die KI selbst entwickeln lassen können.

Categories: IT Info