QUICK REVIEW

[논문 리뷰] Agentic-R: Learning to Retrieve for Agentic Search

Wenhan Liu, Xinyu Ma|arXiv (Cornell University)|2026. 01. 17.

Topic Modeling인용 수 0

한 줄 요약

Agentic-R은 로컬 질의-패시지 관련성과 글로벌 최종 답변 정확성 모두를 활용하고, 다중 턴 검색-추론을 개선하기 위한 에이전트-리트리버의 반복 최적화를 포함하는 에이전트 지향 검색용 retriever 학습 프레임워크를 도입한다.

ABSTRACT

Agentic search has recently emerged as a powerful paradigm, where an agent interleaves multi-step reasoning with on-demand retrieval to solve complex questions. Despite its success, how to design a retriever for agentic search remains largely underexplored. Existing search agents typically rely on similarity-based retrievers, while similar passages are not always useful for final answer generation. In this paper, we propose a novel retriever training framework tailored for agentic search. Unlike retrievers designed for single-turn retrieval-augmented generation (RAG) that only rely on local passage utility, we propose to use both local query-passage relevance and global answer correctness to measure passage utility in a multi-turn agentic search. We further introduce an iterative training strategy, where the search agent and the retriever are optimized bidirectionally and iteratively. Different from RAG retrievers that are only trained once with fixed questions, our retriever is continuously improved using evolving and higher-quality queries from the agent. Extensive experiments on seven single-hop and multi-hop QA benchmarks demonstrate that our retriever, termed \ours{}, consistently outperforms strong baselines across different search agents. Our codes are available at: https://github.com/8421BCD/Agentic-R.

연구 동기 및 목표

다중 턴에서 추론과 검색이 서로 얽히는 에이전트 지향 검색에서 특화된 리트리버의 필요성을 부각한다.
다중 턴 에이전트 지향 검색에서 패시지 유용성을 로컬 관련성과 글로벌 최종 답변 정확성의 결합으로 정의한다.
연구 에이전트와 리트리버를 함께 최적화하는 반복적 학습 프레임워크를 제안하여 성능을 지속적으로 향상시킨다.

제안 방법

로컬 관련성(LLM 기반 리스트형 순위 매김)을 통한 두 신호와 최종 답변 정확성(정답과의 정확일치)을 이용해 패시지 유용성을 모델링한다.
각 중간 질의에 대해 후보 패시지의 점수를 매겨 GAC와 LR 기준에 따라 양성/음성을 선택하여 턴별 학습 데이터를 구성한다.
입력 x_i = Q [SEP] q_i를 활용한 대조 학습으로, 배치 내 및 디바이스 간 음수를 활용하여 Agentic-R을 학습한다.
에이전트-리트리버 최적화를 반복적으로 수행(2 라운드가 효과적이라는 발견)하여, 먼저 PPO로 학습된 에이전트를 이용해 더 높은 품질의 질의를 생성하고 이를 통해 리트리버를 추가로 학습한다.
공헌도 보여주기 위해 GAC와 LR의 효과를 제거 실험(ablation)으로 평가하고, 성능에 대한 기여를 제시한다.
리트리버와 에이전트를 여러 검색 에이전트에서 일반화 가능성을 탐구한다(도메인 내외의 에이전트에서 평가).

실험 결과

연구 질문

RQ1다중 턴 에이전트 지향 검색에서 패시지 유용성을 효과적으로 모델링하는 방법은 무엇인가?
RQ2에이전트와 리트리버를 반복 루프에서 함께 최적화하면 최종 QA 성능과 효율이 향상되는가?
RQ3로컬 관련성과 글로벌 최종 답변 정확성 중 어떤 요소가 에이전트 지향 검색 리트리버 학습에 필요한가?
RQ4Agentic-R이 학습에 사용된 하나의 에이전트 외에 다른 검색 에이전트로 일반화할 수 있는 정도는 어떤가?
RQ5에이전트-리트리버 루프의 반복 수가 성능 수렴에 미치는 영향은 무엇인가?

주요 결과

HotpotQA	2Wiki	Musique	Bamboogle	NQ	TriviaQA	PopQA	Avg
45.82	45.30	20.27	48.00	42.43	69.02	44.14	45.00

Agentic-R은 세 가지 다른 검색 에이전트에서 평균 정확일치(EM) 점수를 지속적으로 최상으로 달성한다.
Agentic-R은 다중 홉 QA에서 단일 홉 QA보다 더 큰 향상을 보이며, 복잡한 추론 시나리오에서 효과가 있음을 시사한다.
RAG 특화 리트리버는 학습 질의와 에이전트가 생성한 질의 간 분포 차이로 인해 에이전트 지향 검색에서 일반 목적 리트리버를 일관되게 능가하지는 않는다.
Ablation 연구는 글로벌 정답 정확성(GAC)과 로컬 관련성(LR) 모두 성능에 필수적이며, 일부 경우 LR이 GAC보다 더 큰 기여를 한다는 것을 보인다.
반복 최적화(두 라운드)가 단일 라운드보다 성능을 향상시키며, 두 차례의 반복 후 수렴이 관찰된다.
Agentic-R은 또한 에이전트가 필요한 검색 턴 수를 줄여 효율성을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.