[論文レビュー] TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG
TreePS-RAG は、 intermediate labels なしでデセendanт結果のモンテカルロ推定を用いて段階的プロセス監督を提供するオンラインの木構造ローアウトを導入し、RLトレーニング効率とQA性能を向上させる。
Agentic retrieval-augmented generation (RAG) formulates question answering as a multi-step interaction between reasoning and information retrieval, and has recently been advanced by reinforcement learning (RL) with outcome-based supervision. While effective, relying solely on sparse final rewards limits step-wise credit assignment and provides weak guidance for intermediate reasoning and actions. Recent efforts explore process-level supervision, but typically depend on offline constructed training data, which risks distribution shift, or require costly intermediate annotations. We present TreePS-RAG, an online, tree-based RL framework for agentic RAG that enables step-wise credit assignment while retaining standard outcome-only rewards. Our key insight is to model agentic RAG reasoning as a rollout tree, where each reasoning step naturally maps to a node. This tree structure allows step utility to be estimated via Monte Carlo estimation over its descendant outcomes, yielding fine-grained process advantages without requiring intermediate labels. To make this paradigm practical, we introduce an efficient online tree construction strategy that preserves exploration diversity under a constrained computational budget. With a rollout cost comparable to strong baselines like Search-R1, experiments on seven multi-hop and general QA benchmarks across multiple model scales show that TreePS-RAG consistently and significantly outperforms both outcome-supervised and leading process-supervised RL methods.
研究の動機と目的
- エージェント的RAGにおけるクレジット割当を sparse final rewards を超えて改善する動機付け。
- 中間ラベルなしで段階的監督を可能にするオンライン木構造ローアウトを提案。
- 計算効率の高いオンライン木構築と多様性を保つ剪定戦略を開発。
- 結果のみの方法論と既存のプロセス監視RLベースラインと比較してQAベンチマーク全体で改善を示す。
提案手法
- エージェント的RAGのローアウトを、各ステップをノードとし葉が最終回答に対応する根付き木としてモデル化。
- 子孫葉に対するモンテカルロ推定を用いて内部ノードにプロセス値 V(n) を割り当て、プロセス利得を計算。
- ノード値から全体利得と局所利得を計算し、それらを正規化されたプロセス利得 A(n) に結合して方針最適化を行う。
- 計算を抑えるためのバジェット意識型分岐 B_d = ceil(N / |M(d-1)|) によるオンライン深さ制限付き木の展開を実装。
- 類似度ベースの剪定を、上位K個の取得文献のジャカード類似度を用いて兄弟探索の子を剪定し、多様な継続を維持。
- 方針勾配更新時にそのステップ内で生成された全トークンに対してノードレベルのプロセス利得をブロードキャスト。
実験結果
リサーチクエスチョン
- RQ1中間ラベルなしの段階的監督なしで、最終結果報酬を超える学習をエージェント的RAGに対して改善できるか?
- RQ2オンライン木ベースのローアウトは、従来の結果ベースRLと同程度のローアウト予算で密なクレジット割当を提供できるか?
- RQ3類似度ベース剪定とモンテカルロ推定由来のプロセス値は、標準的手法より探索と学習信号を改善するか?
- RQ4TreePS-RAG の性能は、結果監視型および他のプロセス監視RLアプローチと比較して、複数のQAベンチマークとモデルスケールでどうなるか?
主な発見
| Dataset | HotpotQA | 2Wiki | MusiQue | Bamboogle | TriviaQA | PopQA | NQ | Avg |
|---|---|---|---|---|---|---|---|---|
| Ours (Qwen3-4B-Instruct-2507) | 0.480 | 0.541 | 0.233 | 0.536 | 0.680 | 0.488 | 0.476 | 0.490 |
- TreePS-RAG は、7つのQAベンチマークで4つのバックボーンモデルに対して一貫して競合ベースラインを上回る。
- _online rollout のコストは、Search-R1 のような結果ベース手法と同程度に保たれる。
- 木構造監督から得られるプロセス利得は、 intermediate labels がなくてもより細かなクレジット割当に寄与し、性能を向上させる。
- 類似度ベースの剪定は探索の多様性を維持するために重要で、堅牢な利益をもたらす。
- 木を拡大するとモンテカルロ推定の分散を減らすことでわずかな追加ゲインが得られる。
- 継続性ベースの分析は、TreePS-RAG がベースラインよりも不完全な推論プレフィックスの修正をより良くサポートすることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。