QUICK REVIEW

[논문 리뷰] Multi-Step Semantic Reasoning in Generative Retrieval

Steven Dong, Yubao Tang|arXiv (Cornell University)|2026. 03. 12.

Information Retrieval and Search Behavior인용 수 0

한 줄 요약

ReasonGR는 구조화된 프롬팅과 추론 어댑터를 사용하여 생성형 검색의 다단계 의미 추론을 강화하고 FinQA 검색 정확도와 학습 효율성을 향상시킵니다.

ABSTRACT

Generative retrieval (GR) models encode a corpus within model parameters and generate relevant document identifiers directly for a given query. While this paradigm shows promise in retrieval tasks, existing GR models struggle with complex queries in numerical contexts, such as those involving semantic reasoning over financial reports, due to limited reasoning capabilities. This limitation leads to suboptimal retrieval accuracy and hinders practical applicability. We propose ReasonGR, a framework designed to enhance multi-step semantic reasoning in numerical contexts within GR. ReasonGR employs a structured prompting strategy combining task-specific instructions with stepwise reasoning guidance to better address complex retrieval queries. Additionally, it integrates a reasoning-focused adaptation module to improve the learning of reasoning-related parameters. Experiments on the FinQA dataset, which contains financial queries over complex documents, demonstrate that ReasonGR improves retrieval accuracy and consistency, indicating its potential for advancing GR models in reasoning-intensive retrieval scenarios.

연구 동기 및 목표

쿼리가 복잡한 문서에 대해 다단계 수치 추론을 필요로 할 때 검색 성능을 개선하도록 동기를 부여합니다.
구조화된 프롬프트와 단계별 추론 안내를 결합하는 ReasonGR 프레임워크를 제안합니다.
추론 관련 매개변수를 효율적으로 학습하기 위한 추론 중심 적응 모듈을 도입합니다.
기본 생성형 검색 방법 대비 FinQA 데이터셋에서 개선을 보여줍니다.

제안 방법

LoRA 기반 추론 어댑터를 갖춘 생성형 검색을 위한 트랜스포머 기반 인코더-디코더 백본을 활용합니다.
4-bit QLoRA를 적용하여 고정된 백본을 양자화하고 메모리 사용을 줄입니다.
작업 템플릿과 Chain-of-Thought 지침을 결합한 프롬프트로 추론 주도 학습을 설계합니다.
두 가지 작업으로 학습합니다: MLE를 통한 문서 ID 암기와 추론 흔적을 활용한 다단계 관련성 학습.
토큰 수준 예측을 감독하기 위해 EM, PM, SM, S-Score 신호를 결합한 적응형 패널티 스케일링 손실을 사용합니다.

Figure 1: ReasonGR performing multi-step semantic reasoning on a FinQA query. The model extracts key info and locates relevant report sections to generate the docid, formed by the company name and report year.

실험 결과

연구 질문

RQ1구조화된 프롬프팅(적은 예시 학습 및 CoT 포함)이 재정 문서를 다루는 생성형 검색에서 다단계 추론을 개선할 수 있습니까?
RQ2LoRA/QLoRA를 이용한 추론 어댑터가 추론 중심 작업의 검색 정확도와 학습 효율성을 개선합니까?
RQ3ReasonGR은 FinQA 데이터셋에서 기존의 검색 및 일반 GR 기준선과 비교하여 어떻게 수행합니까?
RQ4프롬프트 디자인의 영향(Zero vs CoT vs Full ReasonGR)이 성능과 효율성에 미치는 영향은 무엇입니까?

주요 결과

모델	EM (Eval)	PM (Eval)	SM (Eval)	EM (Test)	PM (Test)	SM (Test)
BM25	0.623	-	-	0.625	-	-
DSI	0.563	0.646	0.651	0.578	0.654	0.659
ReasonGR (Zero)	0.572	0.732	0.748	0.601	0.750	0.767
ReasonGR (CoT)	0.571	0.728	0.748	0.612	0.755	0.774
ReasonGR	0.607	0.751	0.765	0.626	0.762	0.779

ReasonGR 변형은 FinQA 평가 및 테스트 세트에서 EM, PM, SM 지표에서 기준선(BM25, DSI)을 능가합니다.
전체 ReasonGR은 최상의 PM 및 SM 점수를 달성하고 BM25에 비해 EM을 개선합니다.
프롬프트 학습(Few-shot + CoT)이 이점을 제공하며 프롬프트가 없으면(Zero) 성능이 하락합니다.
CoT-전용 프롬프트는 Few-shot 프롬트와의 조합으로 중간 수준의 이득을 제공합니다.
ReasonGR은 프롬프트 설정에 따라 메모리 사용은 비례적이지 않게 훈련 시간이 감소하는 등 학습 효율이 우수합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.