Alibaba の Tongyi Lab は、AI 開発における高コストと手作業の削減を目的として、AI エージェントの自己学習を可能にする新しいフレームワークである AgentEvolver を発表しました。
このシステムは、自律学習に 3 つのコア メカニズムを使用します。 「自己質問」ではエージェントが独自のトレーニング タスクを作成でき、「自己ナビゲーション」では過去の経験を再利用して探索をガイドし、「自己帰属」では正しいアクションにクレジットを割り当てることで学習を洗練します。
このアプローチにより、AI トレーニングがより効率的かつ拡張可能になります。初期のベンチマークでは、AgentEvolver により、小規模な AI モデルがはるかに大規模な AI モデルを上回るパフォーマンスを実現し、経済的に持続可能なエージェント開発に向けた重要な一歩を踏み出しました。
肉体労働から自己進化へ: 新しいトレーニング パラダイム
有能な AI エージェントを開発する現在の方法は、高価で時間がかかることで有名です。多くの場合、手動で作成された膨大なタスク データセットと非効率でランダムな探索を必要とする強化学習 (RL) パイプラインに依存します。
AgentEvolver は、学習の主導権を人間のエンジニアから AI 自体に移すことで、これらのボトルネックに直接対処します。研究チームは論文の中で中心的な疑問を投げかけています。「独自の学習プロセスを推進する際に、モデル自体にさらに大きな自律性を委ねてはどうでしょうか?」
人間が作成したデータセットを待つ代わりに、フレームワークの「自問」メカニズムにより、エージェントはデジタル環境を探索し、独自のトレーニング タスクを自律的に生成できます。
この好奇心主導のアプローチにより、高価な手作りデータへの依存が軽減されます。これにより、システムは環境の機能境界を発見し、システム自体が多様なカリキュラムを作成できるようになります。
私たちは、Tongyi Lab のオープンソースの自己進化エージェント システムである AgentEvolver をリリースできることを嬉しく思います。
AgentEvolver は、3 つの相乗メカニズム (Self-Questioning、Self-Navigating、Self-Attributing) を統合し、Agent RL の重大なボトルネックに体系的に対処します… pic.twitter.com/VnrE7ftyyu– Tongyi Lab (@Ali_TongyiLab) 2025 年 11 月 18 日
「自己ナビゲーション」コンポーネントは、自身の成功と失敗を分析することで、探索効率を向上させます。過去の軌跡を再利用可能なエクスペリエンスに抽出し、エージェントを将来のタスクでより効果的な戦略に導きます。
これにより、プロセスはブルートフォースの試行錯誤から、より的を絞ったインテリジェントな学習へと移行します。
AgentEvolver は効率的な自己進化エージェント システムに向けて
最後に、「自己帰属」により、きめ細かい報酬を割り当てることでサンプルの効率が向上します。従来の RL 手法では、一連のアクション全体を 1 つの結果スコアで評価することがよくあります。 AgentEvolver のシステムは、個々のステップの影響を分析し、より正確かつ効果的なポリシーの更新を可能にします。
内部: 自問自答、ナビゲーション、帰属の仕組み
AgentEvolver フレームワークは、統合されたエンドツーエンドを通じてこれらの概念を運用します。システム。このプロセスは、エージェントが環境を調査してその状態-行動空間を理解することから始まります。次に、難易度やスタイルなどの事前定義された設定に合わせてタスクを合成し、生成されたカリキュラムが多様性と関連性を兼ね備えていることを保証します。
これらの自己生成タスクの品質を保証するために、システムには重複をフィルタリングしてソリューションが実行可能であることを検証するキュレーション パイプラインが含まれています。
これにより、エージェントは実行可能で価値のある例から確実に学習できます。このフレームワークはモジュール式に設計されているため、開発者はさまざまな環境や RL インフラストラクチャと統合できます。
AppWorld や BFCL-v3 などの厳しい業界ベンチマークでのパフォーマンスにより、このアプローチが実証されています。 AgentEvolver は、これらのテスト全体で Alibaba の 14B パラメータ Qwen2.5 モデルの平均タスク完了率 (平均 @8) を 27.8% 大幅に向上させました。
複雑な AppWorld ベンチマークでは、改善はさらに強力で、ベースラインを 30.7 パーセント上回りました。これらの結果は、この自己進化する方法論でトレーニングすると、より小型で効率的なモデルが優れたパフォーマンスを達成できることを示しています。
AI コストに関する二正面作戦: トレーニングと推論
この経済的持続可能性への焦点は、アリババの戦略の重要な部分です。トレーニング コストを対象とした AgentEvolver のリリースは、同社が最近発表した Aegaeon システムにほぼ続くものです。
Aegaeon は、インテリジェントな GPU スケジューリングを通じて、AI 推論コスト (本番環境での実行モデルの価格) を最大 82% 削減するように設計されています。
これら 2 つのイノベーションは合わせて、現在 AI の広範な導入を制限している膨大な運用コストに対する包括的な攻撃を表しています。 AgentEvolver は専門エージェントの構築をより安価にしますが、Aegaeon はその導入をより安価にします。
この 2 つの戦略は、アリババのオープンソースおよび独自の AI モデルの広大な市場を長期的に経済的に実行可能にするために重要です。
自律型エージェントにおける新たな軍拡競争
自己改善 AI を追求しているのはアリババだけではありません。 AgentEvolver の論文は、Google DeepMind が複雑な 3D ビデオ ゲーム内で新しいスキルを自ら学習できる AI エージェントである SIMA 2 を発表したのと同じ日に発表されました。この並行開発は、人間の介入を最小限に抑えて学習できる、より自律的でジェネラリストなエージェントの作成に向けた業界全体の大きな推進を浮き彫りにしています。
Google のプロジェクトは、現実世界のロボット工学への足がかりとして仮想世界に焦点を当てているのに対し、アリババの AgentEvolver はデジタル タスクの開発者エコシステムを真正面から目指しています。アリババは、エージェント開発の最も手間のかかる部分を自動化するフレームワークを提供することで、新世代の AI アプリケーションを強化できる立場にあります。
この動きにより、エージェント開発が民主化され、OpenAI や Anthropic などの西側 AI リーダーとの競争が激化する可能性があります。
適応型のツール拡張エージェントを構築するための強力でオープンなフレームワークをリリースすることで、アリババはイノベーションへの最も確実な道は、開発者に AI を活用させるツールを提供することであると賭けています。それ自体を構築します。