QUICK REVIEW

[論文レビュー] Tool-R0: Self-Evolving LLM Agents for Tool-Learning from Zero Data

Emre Can Acikgoz, Cheng Qian|arXiv (Cornell University)|Feb 24, 2026

Reinforcement Learning in Robotics被引用数 0

ひとこと要約

Tool-R0 は、Generator と Solver という Generator 学習と Solver 学習を組み合わせた自己対戦 RL から、人間データなしで大きな利得を達成し、教師ありベースラインを上回る汎用ツール呼び出しエージェントをゼロデータで学習します。

ABSTRACT

Large language models (LLMs) are becoming the foundation for autonomous agents that can use tools to solve complex tasks. Reinforcement learning (RL) has emerged as a common approach for injecting such agentic capabilities, but typically under tightly controlled training setups. It often depends on carefully constructed task-solution pairs and substantial human supervision, which creates a fundamental obstacle to open-ended self-evolution toward superintelligent systems. In this paper, we propose Tool-R0 framework for training general purpose tool-calling agents from scratch with self-play RL, under a zero-data assumption. Initialized from the same base LLM, Tool-R0 co-evolves a Generator and a Solver with complementary rewards: one proposes targeted challenging tasks at the other's competence frontier and the other learns to solve them with real-world tool calls. This creates a self-evolving cycle that requires no pre-existing tasks or datasets. Evaluation on different tool-use benchmarks show that Tool-R0 yields 92.5 relative improvement over the base model and surpasses fully supervised tool-calling baselines under the same setting. Our work further provides empirical insights into self-play LLM agents by analyzing co-evolution, curriculum dynamics, and scaling behavior.

研究の動機と目的

curated datasets のスケーラビリティ制限のため、人間データなしでツール呼び出しを学習する動機付け。
自己進化する二役割（Generator と Solver）RL フレームワークの導入。
grounded なタスク生成と難易度を考慮したカリキュラムを設計。
モデル規模とアーキテクチャを跨ぐゼロデータのツール学習を実証。

提案手法

ベース LLM を二つの共同進化役割（Generator と Solver）へ初期化。
ドメイン制御仕様（domain、context、tools、answers）でタスク生成をグラウンド。
Generator を GRPO で訓練し、検証可能で難易度の高いタスクを生成し、フォーマット、妥当性、カリキュラム信号を含むマルチ要素報酬を定義。
Generator の出力から重複排除、相互検証、難易度ベースのバッチ処理を経て Solver 訓練用デ curated データセットを構築。
クエリとツールメニューからツール呼び出しを推定する Solver を、推論プロンプトと自動検証を支える出力構造で訓練。
AST ベースのマッチングを用いて Tool-R0 を五つのツール呼び出しベンチマークで評価し、カリキュラムダイナミクス、共進化、スケーリングを分析。

実験結果

リサーチクエスチョン

RQ1Tool-R0 は scratch から自己対戦でベース LLM に複雑なツール呼び出しスキルを学習させられるか。
RQ2モデル規模は Tool-R0 のツール呼び出し性能にどう影響するか。
RQ3Tool-R0 は異なるベースモデルファミリ（例: Qwen 対 Llama）で堅牢か。
RQ4人間データで訓練された教師ありモデルと比べ Tool-R0 はどうか。
RQ5自己対戦ダイナミクス、アーキテクチャ分離、カリキュラム設計が学習に与える影響は）。

主な発見

Tool-R0 はベースモデルに対してベンチマーク全体で平均相対改善 92.52% を示す。
Tool-R0 とともに、0.5B モデルは平均精度で 1.5B ベースモデルを上回り、1.5B モデルは 3B ベースモデルを上回る。
Tool-R0 は Qwen 系と Llama 系の両方に改善をもたらし、アーキテクチャを超えてモデル非依存の利得を示す。
ツール呼び出しに関するゼロ精選データでの Tool-R0 は、千件超の人間注釈例で訓練された教師ありベースライン（平均 47.84% 対 ToolRL の 46.06%）を上回る。
高エントロピーなツール使用設定で安定した共進化には Generator と Solver の分離パラメータが必須。
Generator の凍結やカリキュラム/難易度報酬の除去は Solver の性能を劣化させ、活発な Generator 学習と適応報酬の必要性を裏付ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。