QUICK REVIEW

[論文レビュー] Agentic-R: Learning to Retrieve for Agentic Search

Wenhan Liu, Xinyu Ma|arXiv (Cornell University)|Jan 17, 2026

Topic Modeling被引用数 0

ひとこと要約

Agentic-Rは、エージェント操作検索に特化した retriever のトレーニングフレームワークを導入。局所的クエリ-パッセージ関連性と全体的な最終回答の正確性の両方を用い、反復的なエージェント–retriever 最適化を通じてマルチターンの retrieval-augmented reasoning の性能を向上させる。

ABSTRACT

Agentic search has recently emerged as a powerful paradigm, where an agent interleaves multi-step reasoning with on-demand retrieval to solve complex questions. Despite its success, how to design a retriever for agentic search remains largely underexplored. Existing search agents typically rely on similarity-based retrievers, while similar passages are not always useful for final answer generation. In this paper, we propose a novel retriever training framework tailored for agentic search. Unlike retrievers designed for single-turn retrieval-augmented generation (RAG) that only rely on local passage utility, we propose to use both local query-passage relevance and global answer correctness to measure passage utility in a multi-turn agentic search. We further introduce an iterative training strategy, where the search agent and the retriever are optimized bidirectionally and iteratively. Different from RAG retrievers that are only trained once with fixed questions, our retriever is continuously improved using evolving and higher-quality queries from the agent. Extensive experiments on seven single-hop and multi-hop QA benchmarks demonstrate that our retriever, termed \ours{}, consistently outperforms strong baselines across different search agents. Our codes are available at: https://github.com/8421BCD/Agentic-R.

研究の動機と目的

推論と検索がターン間で繋がるエージェント的検索において、特化型 retriever の必要性を動機づける。
マルチターンのエージェント的検索におけるパッセージの有用性を、局所的関連性とグローバルな最終回答の正確性を組み合わせて定義する。
検索エージェントと retriever を共同最適化する反復的な訓練フレームワークを提案し、性能を継続的に向上させる。

提案手法

2つの信号でパッセージの有用性をモデル化する：局所的関連性（LLMベースのリストワイスランキングによる）と最終回答の正確性（金標準回答との完全一致）を活用。
中間クエリごとに候補パッセージをスコア付けし、GACとLRの基準下でポジティブ/ネガティブを選定して各ターンの訓練データを構築。
対比学習を用いて Agentic-R を訓練：入力 x_i = Q [SEP] q_i、バッチ内およびデバイス間のネガティブを活用。
反復的なエージェント–retriever 最適化（2 ラウンドが有効とされる）を採用。エージェントを PPO で訓練し、その後より高品質なクエリを生成させて retriever の訓練をさらに進める。
信号の有用性（GAC と LR）をアブレーションで評価し、性能への寄与を示す。
retriever とエージェントを複数の検索エージェント（ドメイン内外）でテストすることで一般化を探る。

実験結果

リサーチクエスチョン

RQ1マルチターンのエージェント的検索において、パッセージの有用性を効果的にモデル化するにはどうすればよいか。
RQ2retriever をエージェントと共同で反復ループで最適化することは、最終的な QA 性能と効率を向上させるか。
RQ3局所的関連性とグローバルな最終回答の正確性の両方は、エージェント的検索 retriever の訓練に必要か。
RQ4Agentic-R は、訓練に用いたもの以外の異なる検索エージェントへ一般化できるか。
RQ5エージェント–retriever ループの反復回数は性能収束にどのような影響を与えるか。

主な発見

HotpotQA	2Wiki	Musique	Bamboogle	NQ	TriviaQA	PopQA	Avg
45.82	45.30	20.27	48.00	42.43	69.02	44.14	45.00

Agentic-R は、3つの異なる検索エージェントにおいて平均の完全一致 (EM) スコアを一貫して最高とする。
Agentic-R はマルチホップ QA での改善効果が単一ホップより大きく、複雑な推論シナリオでの有効性を示す。
RAG 専用 retriever は、訓練クエリとエージェント生成クエリ間の分布ギャップのため、エージェント的検索では一般目的 retriever よりも一貫して優れていない。
アブレーション研究により、全体的回答の正確性（GAC）と局所的関連性（LR）の両方が性能に不可欠であり、LR は場合によって GAC より寄与が大きい。
反復的最適化（二回のラウンド）は単一ラウンドより性能を改善し、二回の反復で収束が観察される。
Agentic-R はエージェントが必要とする検索ターン数をも削減し、効率性を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。