[논문 리뷰] Sandwich Reasoning: An Answer-Reasoning-Answer Approach for Low-Latency Query Correction
이 논문은 쿼리 보정을 위한 사후 추론(post-hoc reasoning)과 정합된 빠른 초기 보정을 제공하는 Answer–Reasoning–Answer 프레임워크 SandwichR를 도입하며, 최첨단 정확도를 달성하고 상당한 대기 시간 감소를 이끕니다.
Query correction is a critical entry point in modern search pipelines, demanding high accuracy strictly within real-time latency constraints. Chain-of-Thought (CoT) reasoning improves accuracy but incurs prohibitive latency for real-time query correction. A potential solution is to output an answer before reasoning to reduce latency; however, under autoregressive decoding, the early answer is independent of subsequent reasoning, preventing the model from leveraging its reasoning capability to improve accuracy. To address this issue, we propose Sandwich Reasoning (SandwichR), a novel approach that explicitly aligns a fast initial answer with post-hoc reasoning, enabling low-latency query correction without sacrificing reasoning-aware accuracy. SandwichR follows an Answer-Reasoning-Answer paradigm, producing an initial correction, an explicit reasoning process, and a final refined correction. To align the initial answer with post-reasoning insights, we design a consistency-aware reinforcement learning (RL) strategy: a dedicated consistency reward enforces alignment between the initial and final corrections, while margin-based rejection sampling prioritizes borderline samples where reasoning drives the most impactful corrective gains. Additionally, we construct a high-quality query correction dataset, addressing the lack of specialized benchmarks for complex query correction. Experimental results demonstrate that SandwichR achieves SOTA accuracy comparable to standard CoT while delivering a 40-70% latency reduction, resolving the latency-accuracy trade-off in online search.
연구 동기 및 목표
- 실시간 쿼리 보정에서 정확도와 지연 시간의 트레이드오프를 해소한다.
- 이후 추론을 활용하면서 빠른 초기 보정을 선행적으로 제공하는 아키텍처를 제안한다.
- 초기 보정과 최종 보정을 일치시키기 위한 일관성 인식 강화 학습 전략을 개발한다.
- 벤치마킹을 위한 고품질의 도메인 다양성이 높은 쿼리 보정 데이터셋을 구축한다.
제안 방법
- 출력 형식: Answer–Reasoning–Answer 시퀀스로 초기 보정, 추론 경로, 최종 보정을 제공합니다.
- 두 단계 학습: (i) GPT-4o가 생성한 추론과 보정을 활용하여 SandwichR 능력을 습득하기 위한 감독형 미세 조정(SFT); (ii) 여유 마진 기반 재샘플링 전략을 갖춘 일관성 인식 강화 학습(RL).
- 정확도(F0.5)와 형식 페널티, 일관성 페널티를 결합한 보상 설계로 C_init = C_final를 강제한다.
- 정책 최적화를 위한 GRPO 사용 및 추론이 정확도를 향상시키는 경계선 샘플을 선택하는 재샘플링(Reject sampling) 방식.
- 실세계 쿼리 데이터에 잘못되거나 누락되거나 순서가 뒤섯인 단어를 주입하여 (노이즈, 깨끗한) 페어를 생성하는 데이터 구성.
실험 결과
연구 질문
- RQ1Answer–Reasoning–Answer 프레임워크가 추론 기반 정확도를 희생하지 않으면서 낮은 지연의 보정을 제공할 수 있는가?
- RQ2초기 빠른 보정을 후속 추론과 정렬시키고 CoT의 이점을 모사하려면 어떻게 해야 하는가?
- RQ3어떤 학습 전략(SFT + RL)과 샘플링 기법이 초기 답변에 추론을 가장 잘 추출해내는가?
- RQ4다양한 도메인에서 Ans-Rea, Rea-Ans 및 전통적 모델과 비교하여 SandwichR의 정확도와 지연 측정 성능은 어떠한가?
- RQ5실세계 노이즈를 반영하는 복잡한 쿼리 보정을 벤치마킹하기 위한 실용적인 데이터세트가 있는가?
주요 결과
- SandwichR은 표준 Chain-of-Thought 접근법과 견줄 수 있는 최첨단 보정 정확도를 달성한다.
- 실용적 지연 제약하에서 SandwichR은 추론 우선 기반 대비 40–70% 더 빠른 추론을 제공하면서도 높은 정확도를 유지한다.
- RL with a consistency reward and margin-based rejection sampling improves performance over SFT baselines across multiple domains (E-commerce, Video, Medical).
- SandwichR은 다수의 데이터셋과 다양한 오류 유형에서 지속적으로 Ans-Rea 및 Rea-Ans 구조를 능가한다.
- 제한된 토큰 예산에서 SandwichR은 타 형식보다 더 높은 정확도와 더 낮은 지연을 유지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.