[论文解读] RECOR: Reasoning-focused Multi-turn Conversational Retrieval Benchmark
RECOR 引入一个将多轮对话检索与显性推理结合的基准,显示历史+推理显著提升检索,并且推理专门化模型优于密集编码器。
Existing benchmarks treat multi-turn conversation and reasoning-intensive retrieval separately, yet real-world information seeking requires both. To bridge this gap, we present a benchmark for reasoning-based conversational information retrieval comprising 707 conversations (2,971 turns) across eleven domains. To ensure quality, our Decomposition-and-Verification framework transforms complex queries into fact-grounded multi-turn dialogues through multi-level validation, where atomic facts are verified against sources and explicit retrieval reasoning is generated for each turn. Comprehensive evaluation reveals that combining conversation history with reasoning doubles retrieval performance (Baseline .236 $ ightarrow$ History+Reasoning .479 nDCG@10), while reasoning-specialized models substantially outperform dense encoders. Despite these gains, further analysis highlights that implicit reasoning remains challenging, particularly when logical connections are not explicitly stated in the text.
研究动机与目标
- 需要 fuse 多轮对话与基于推理的检索的基准的动机。
- 提出一个分解与验证(Decomposition-and-Verification)框架,以从复杂查询中生成事实 grounding 的多轮对话。
- 创建一个基准(707 个对话,2,971 个 turns,覆盖 11 个领域),并通过人工与大模型评估进行验证。
- 显示历史记录加上显性推理能将检索性能翻倍,并且推理专门化模型优于密集编码器。
- 揭示在文本中未显式陈述必要信息时隐式推理的挑战。
提出的方法
- 采用分解与验证框架,将复杂的单轮查询转化为 grounded 的多轮对话。
- 将答案分解为对来源可验证的原子事实,并为每一方面生成聚焦的子问题。
- 基于覆盖原子事实和显性检索推理信号,对每轮的文档进行评分与选择。
- 提供三层验证:事实层面、轮次层面和对话层面,以确保 grounding 与自然流畅。
- 汇编自 BRIGHT 与 StackExchange 的 707 个对话(2,971 个 turns),覆盖 11 个领域,包含 507,141 篇文档(2,900 条阳性、504,241 条困难负例)。
- 在多种查询处理策略下使用多种检索器(推理专门化与密集编码器)评估检索,指标为 nDCG@10,包括 History 与 History+Reasoning。
实验结果
研究问题
- RQ1将显性推理和对话历史纳入后,多轮 CIR 的检索效果有何变化?
- RQ2在需要推理的多轮查询上,推理专门化检索器是否优于密集编码器?
- RQ3当文本中并非所有推理连接都显式给出时,隐式推理的局限性是什么?
- RQ4分解与验证 grounding 生成框架在跨领域生成多样且高质量的多轮对话方面能达到何种程度?
主要发现
| Retriever | Base | QR | Reas | Hist | H+R |
|---|---|---|---|---|---|
| DIVER | .347 | .430 | .496 | .545 | .584 |
| ReasonIR | .266 | .357 | .494 | .496 | .552 |
| Qwen | .269 | .345 | .399 | .425 | .461 |
| SFR | .240 | .324 | .396 | .429 | .464 |
| BGE | .230 | .328 | .347 | .411 | .445 |
| E5 | .183 | .272 | .352 | .404 | .429 |
| Contriever | .168 | .232 | .303 | .366 | .409 |
| BM25 | .185 | .288 | .360 | .446 | .489 |
| Average | .236 | .322 | .393 | .440 | .479 |
- History+Reasoning 相较基线提升检索性能(nDCG@10:.479 对 .236)。
- 推理专门化检索器在跨领域任务上优于密集编码器(例如 DIVER 使用 History+Reasoning 达到 .584)。
- 基线在后续轮次因上下文依赖而表现吃力,而基于历史的方法在各轮次上呈现持续提升。
- 当必要连接未在源文本中显式给出时,隐式推理仍然具有挑战性。
- 人工和 GPT-4o 评估表明在分解与验证框架下对话质量较高(自然性、连贯性、 grounding),对话质量良好。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。