Skip to main content
QUICK REVIEW

[논문 리뷰] RECOR: Reasoning-focused Multi-turn Conversational Retrieval Benchmark

Mohammed K Ali, Abdelrahman Abdallah|arXiv (Cornell University)|2026. 01. 09.
Topic Modeling인용 수 0
한 줄 요약

RECOR는 다회 대화형 검색과 명시적 추론을 결합한 벤치마크를 제시하여 히스토리+추론이 검색 성능을 크게 향상시키고, 추론에 특화된 모델이 밀집 인코더를 능가한다는 것을 보인다.

ABSTRACT

Existing benchmarks treat multi-turn conversation and reasoning-intensive retrieval separately, yet real-world information seeking requires both. To bridge this gap, we present a benchmark for reasoning-based conversational information retrieval comprising 707 conversations (2,971 turns) across eleven domains. To ensure quality, our Decomposition-and-Verification framework transforms complex queries into fact-grounded multi-turn dialogues through multi-level validation, where atomic facts are verified against sources and explicit retrieval reasoning is generated for each turn. Comprehensive evaluation reveals that combining conversation history with reasoning doubles retrieval performance (Baseline .236 $ ightarrow$ History+Reasoning .479 nDCG@10), while reasoning-specialized models substantially outperform dense encoders. Despite these gains, further analysis highlights that implicit reasoning remains challenging, particularly when logical connections are not explicitly stated in the text.

연구 동기 및 목표

  • 다회 대화와 추론 기반 검색을 결합한 벤치마크의 필요성을 제시한다.
  • 복합 질의로부터 사실에 근거한 다회 대화 dialogue를 생성하기 위해 분해-검증 프레임워크를 제안한다.
  • 707개의 대화, 2,971 턴, 11개 도메인의 벤치마크를 만들고 인간 및 LLM 평가로 검증한다.
  • 히스토리(대화 이력)와 명시적 추론이 검색 성능을 두 배로 증가시키고, 추론에 특화된 모델이 밀집 인코더를 능가한다는 것을 보여준다.
  • 텍스트에 필요 정보가 명시적으로 서술되어 있지 않을 때 암시적 추론의 한계를 드러낸다.

제안 방법

  • 복합 단일 턴 질의를 근거 있는 다회 대화로 전환하기 위해 분해-검증 프레임워크를 적용한다.
  • 답을 원자적 사실로 분해하고 출처를 통해 검증하며 각 측면에 대해 집중된 하위 질문을 생성한다.
  • 원자적 사실의 커버리지와 명시적 검색 추론 신호를 기반으로 각 턴의 문서를 점수 매기고 선택한다.
  • 사실 수준, 턴 수준, 대화 수준의 3단계 검증을 제공하여 근거 제시와 자연스러운 흐름을 보장한다.
  • BRIGHT와 StackExchange 소스로부터 11개 도메인에 걸친 707개의 대화(2,971 턴)를 구성하고 507,141개의 문서(2,900개 양성, 504,241개 하드 네거티브)를 포함한다.
  • History, History+Reasoning를 포함한 다양한 질의 처리 전략에서 nDCG@10으로 여러 검색기(추론 특화 검색기 및 밀집 인코더)를 사용해 검색을 평가한다.

실험 결과

연구 질문

  • RQ1명시적 추론과 대화 이력이 다회 CIR에서 검색 효과에 어떤 영향을 미치는가?
  • RQ2추론 특화 검색기가 추론이 집중된 다회 질의에서 밀집 인코더를 능가하는가?
  • RQ3텍스트에 모든 연결 고리가 명시적으로 서술되지 않을 때 암시적 추론의 한계는 무엇인가?
  • RQ4분해-검증 기반 생성 프레임워크가 도메인 전반에 걸쳐 다양하고 고품질의 다회 대화를 얼마나 충분히 생성할 수 있는가?

주요 결과

  • 히스토리+추론은 baseline 대비 검색 성능을 두 배로 향상시킨다(nDCG@10: .479 vs .236).
  • 추론 특화 검색기가 도메인 전반에서 밀집 인코더를 앞선다(예: History+Reasoning에서 DIVER가 .584를 달성).
  • 초기 턴에선 baseline이 맥락 의존으로 어려움을 겪고, 히스토리 기반 방법은 턴이 진행될수록 점진적으로 개선된다.
  • 필요한 연결이 원문에 명시적으로 서술되지 않은 경우 암시적 추론은 여전히 도전적이다.
  • 사람과 GPT-4o 평가에서도 분해-검증 프레임워크 하에서 대화의 품질(자연스러움, 일관성, 사실적 근거 제시)이 높게 나타난다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.