[論文レビュー] Tool-R0: Self-Evolving LLM Agents for Tool-Learning from Zero Data
Tool-R0 は、Generator と Solver という Generator 学習と Solver 学習を組み合わせた自己対戦 RL から、人間データなしで大きな利得を達成し、教師ありベースラインを上回る汎用ツール呼び出しエージェントをゼロデータで学習します。
Large language models (LLMs) are becoming the foundation for autonomous agents that can use tools to solve complex tasks. Reinforcement learning (RL) has emerged as a common approach for injecting such agentic capabilities, but typically under tightly controlled training setups. It often depends on carefully constructed task-solution pairs and substantial human supervision, which creates a fundamental obstacle to open-ended self-evolution toward superintelligent systems. In this paper, we propose Tool-R0 framework for training general purpose tool-calling agents from scratch with self-play RL, under a zero-data assumption. Initialized from the same base LLM, Tool-R0 co-evolves a Generator and a Solver with complementary rewards: one proposes targeted challenging tasks at the other's competence frontier and the other learns to solve them with real-world tool calls. This creates a self-evolving cycle that requires no pre-existing tasks or datasets. Evaluation on different tool-use benchmarks show that Tool-R0 yields 92.5 relative improvement over the base model and surpasses fully supervised tool-calling baselines under the same setting. Our work further provides empirical insights into self-play LLM agents by analyzing co-evolution, curriculum dynamics, and scaling behavior.
研究の動機と目的
- curated datasets のスケーラビリティ制限のため、人間データなしでツール呼び出しを学習する動機付け。
- 自己進化する二役割(Generator と Solver)RL フレームワークの導入。
- grounded なタスク生成と難易度を考慮したカリキュラムを設計。
- モデル規模とアーキテクチャを跨ぐゼロデータのツール学習を実証。
提案手法
- ベース LLM を二つの共同進化役割(Generator と Solver)へ初期化。
- ドメイン制御仕様(domain、context、tools、answers)でタスク生成をグラウンド。
- Generator を GRPO で訓練し、検証可能で難易度の高いタスクを生成し、フォーマット、妥当性、カリキュラム信号を含むマルチ要素報酬を定義。
- Generator の出力から重複排除、相互検証、難易度ベースのバッチ処理を経て Solver 訓練用デ curated データセットを構築。
- クエリとツールメニューからツール呼び出しを推定する Solver を、推論プロンプトと自動検証を支える出力構造で訓練。
- AST ベースのマッチングを用いて Tool-R0 を五つのツール呼び出しベンチマークで評価し、カリキュラムダイナミクス、共進化、スケーリングを分析。
実験結果
リサーチクエスチョン
- RQ1Tool-R0 は scratch から自己対戦でベース LLM に複雑なツール呼び出しスキルを学習させられるか。
- RQ2モデル規模は Tool-R0 のツール呼び出し性能にどう影響するか。
- RQ3Tool-R0 は異なるベースモデルファミリ(例: Qwen 対 Llama)で堅牢か。
- RQ4人間データで訓練された教師ありモデルと比べ Tool-R0 はどうか。
- RQ5自己対戦ダイナミクス、アーキテクチャ分離、カリキュラム設計が学習に与える影響は)。
主な発見
- Tool-R0 はベースモデルに対してベンチマーク全体で平均相対改善 92.52% を示す。
- Tool-R0 とともに、0.5B モデルは平均精度で 1.5B ベースモデルを上回り、1.5B モデルは 3B ベースモデルを上回る。
- Tool-R0 は Qwen 系と Llama 系の両方に改善をもたらし、アーキテクチャを超えてモデル非依存の利得を示す。
- ツール呼び出しに関するゼロ精選データでの Tool-R0 は、千件超の人間注釈例で訓練された教師ありベースライン(平均 47.84% 対 ToolRL の 46.06%)を上回る。
- 高エントロピーなツール使用設定で安定した共進化には Generator と Solver の分離パラメータが必須。
- Generator の凍結やカリキュラム/難易度報酬の除去は Solver の性能を劣化させ、活発な Generator 学習と適応報酬の必要性を裏付ける。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。