[论文解读] Agentic-R: Learning to Retrieve for Agentic Search
Agentic-R 引入一个针对代理式检索的训练框架,结合局部查询-段落相关性和全局最终答案正确性,以及迭代的代理–检索器优化,以提升多轮检索增强推理的性能。
Agentic search has recently emerged as a powerful paradigm, where an agent interleaves multi-step reasoning with on-demand retrieval to solve complex questions. Despite its success, how to design a retriever for agentic search remains largely underexplored. Existing search agents typically rely on similarity-based retrievers, while similar passages are not always useful for final answer generation. In this paper, we propose a novel retriever training framework tailored for agentic search. Unlike retrievers designed for single-turn retrieval-augmented generation (RAG) that only rely on local passage utility, we propose to use both local query-passage relevance and global answer correctness to measure passage utility in a multi-turn agentic search. We further introduce an iterative training strategy, where the search agent and the retriever are optimized bidirectionally and iteratively. Different from RAG retrievers that are only trained once with fixed questions, our retriever is continuously improved using evolving and higher-quality queries from the agent. Extensive experiments on seven single-hop and multi-hop QA benchmarks demonstrate that our retriever, termed \ours{}, consistently outperforms strong baselines across different search agents. Our codes are available at: https://github.com/8421BCD/Agentic-R.
研究动机与目标
- 在代理式检索中,推理与检索在多轮之间交错,需要专业检索器的动机。
- 通过将局部相关性与全局最终答案正确性相结合,定义多轮代理式检索中的段落效用。
- 提出一个迭代训练框架,联合优化搜索代理和检索器,以持续提升性能。
提出的方法
- 用两种信号建模段落效用:局部相关性(通过基于LLM的列表排序)和最终答案正确性(与黄金答案的精确匹配)。
- 对每一轮通过对中间查询的候选段落打分,并在GAC和LR标准下选择正负样本来构建训练数据。
- 使用对比学习训练 Agentic-R,输入为 x_i = Q [SEP] q_i,利用批内和跨设备的负样本。
- 采用迭代的代理–检索器优化(两轮效果较好),先用 PPO 训练代理,然后让代理生成更高质量的查询以进一步训练检索器。
- 通过消融实验评估效用信号(GAC 和 LR)的贡献,以证明它们对性能的提升作用。
- 通过在多种检索代理(领域内和领域外)下测试检索器与代理来探究泛化性。
实验结果
研究问题
- RQ1如何为多轮代理式检索有效建模段落效用?
- RQ2在迭代循环中联合优化检索器与代理是否能提升最终QA性能与效率?
- RQ3局部相关性与全局最终答案正确性两者是否对训练代理检索器都是必要的?
- RQ4Agentic-R 对不同检索代理的泛化能力如何,超出其训练时所用的代理?
- RQ5迭代次数对代理–检索器循环的性能收敛有何影响?
主要发现
| HotpotQA | 2Wiki | Musique | Bamboogle | NQ | TriviaQA | PopQA | Avg |
|---|---|---|---|---|---|---|---|
| 45.82 | 45.30 | 20.27 | 48.00 | 42.43 | 69.02 | 44.14 | 45.00 |
- Agentic-R 在三种不同的检索代理上始终获得最佳的平均精确匹配(EM)分数。
- Agentic-R 在多跳QA上的改进幅度大于单跳QA,表明在复杂推理场景中的有效性。
- RAG 特定检索器并未在代理式检索中始终优于通用检索器,因为训练查询与代理生成查询之间存在分布差距。
- 消融研究表明全局答案正确性(GAC)和局部相关性(LR)对性能均重要,在某些情况下 LR 的贡献高于 GAC。
- 迭代优化(两轮)比单轮表现更好,且在两轮后出现收敛。
- Agentic-R 还降低了代理所需的检索轮次数,从而提升效率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。