[論文レビュー] Dr. Zero: Self-Evolving Search Agents without Training Data
Dr. Zeroはデータなしで自己進化する提案者-解決者フレームワークを用い、HRPOと多段階タスクのカリキュラムでオープン・ドメインQAの監督付きベースラインに匹敵または上回る。
As high-quality data becomes increasingly difficult to obtain, data-free self-evolution has emerged as a promising paradigm. This approach allows large language models (LLMs) to autonomously generate and solve complex problems, thereby improving their reasoning capabilities. However, multi-turn search agents struggle in data-free self-evolution due to the limited question diversity and the substantial compute required for multi-step reasoning and tool using. In this work, we introduce Dr. Zero, a framework enabling search agents to effectively self-evolve without any training data. In particular, we design a self-evolution feedback loop where a proposer generates diverse questions to train a solver initialized from the same base model. As the solver evolves, it incentivizes the proposer to produce increasingly difficult yet solvable tasks, thus establishing an automated curriculum to refine both agents. To enhance training efficiency, we also introduce hop-grouped relative policy optimization (HRPO). This method clusters structurally similar questions to construct group-level baselines, effectively minimizing the sampling overhead in evaluating each query's individual difficulty and solvability. Consequently, HRPO significantly reduces the compute requirements for solver training without compromising performance or stability. Extensive experiment results demonstrate that the data-free Dr. Zero matches or surpasses fully supervised search agents, proving that complex reasoning and search capabilities can emerge solely through self-evolution.
研究の動機と目的
- 外部検索を supervision のみとしたゼロデータ自己進化によるオープンドメインQAの調査。
- 多様で挑戦的なマルチホップ質問を生成するための共同提案者-解決者訓練を実現。
- パフォーマンスを維持しつつ hop-grouped relative policy optimization による訓練計算量を削減。
- データフリーの自己進化が複数のベンチマークで監督付きベースラインと同等以上であることを示す。
提案手法
- 同じベースLLMから初期化され、外部検索エンジンRを使用する提案者-解決者フレームワーク。
- QAペアをホップ数でクラスタリングしグループベースのアドバンテージを計算するHop-grouped relative policy optimization (HRPO)。
- 提案者が検証可能で非自明な質問を生成するための難易度指導報酬( solvable but not trivial)。
- 最終予測精度を主信号とするグループ相対ポリシー最適化(GRPO)による解決者訓練。
- 解決者の改善が提案者により難しい質問を作らせるよう促す交互最適化ループを形成し、カリキュラムを構築。
実験結果
リサーチクエスチョン
- RQ1データなしの自己進化訓練による提案者と解決者が、オープン・ドメインQAで監督付きベースラインに匹敵または超えるか。
- RQ2HRPOはツール使用を含む多ターン設定で計算コストを削減しつつ性能を保つか。
- RQ3マルチホップ質問の比率と構造は学習ダイナミクスと最終性能にどう影響するか。
- RQ4検索エージェントのゼロデータ自己進化の安定性と訓練ダイナミクスの特性はどうか。
- RQ5フレームワークは異なるベースモデルサイズ(3B vs 7B)に一般化できるか。
主な発見
| NQ | TriviaQA | PopQA | HotpotQA | 2WikiMQA | MuSiQue | Bamboogle | Average |
|---|---|---|---|---|---|---|---|
| 0.397 | 0.572 | 0.431 | 0.298 | 0.291 | 0.091 | 0.200 | 0.326 |
| 0.406 | 0.608 | 0.416 | 0.362 | 0.347 | 0.104 | 0.360 | 0.372 |
- Dr. Zeroは複数のベンチマークで訓練データなしで監督付き検索エージェントと同等以上の性能を達成。
- 3Bおよび7Bベースで、Dr. Zeroは単一ホップおよびマルチホップの課題で強力な結果を達成し、難易度の高い2WikiMQAを含む。
- HRPOはネストされたサンプリングを回避することで提案者訓練の計算量を大幅に削減しつつ性能を維持。
- Dr. Zeroはデータフリーのいくつかのベースライン(SQLM*, R-Zero*)を上回り、RLベースの監督付きベースラインに近づくまたは上回る。
- モデルサイズを大きくする(3Bから7Bへ)と、適切な難易度のカリキュラムがある場合にマルチホップベンチマークでより顕著な利得が得られる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。