Skip to main content
QUICK REVIEW

[논문 리뷰] Reasoning While Asking: Transforming Reasoning Large Language Models from Passive Solvers to Proactive Inquirers

Xin Chen, Feng Jiang|arXiv (Cornell University)|2026. 01. 29.
Topic Modeling인용 수 0
한 줄 요약

tldr: Proactive Interactive Reasoning(PIR)을 도입하는 패러다임으로, 추론 LLM이 사용자의 명확화를 적극적으로 구하도록 만들고, 질문과 추론을 교차시키며 정확도와 효율성을 향상시킨다.

ABSTRACT

Reasoning-oriented Large Language Models (LLMs) have achieved remarkable progress with Chain-of-Thought (CoT) prompting, yet they remain fundamentally limited by a \emph{blind self-thinking} paradigm: performing extensive internal reasoning even when critical information is missing or ambiguous. We propose Proactive Interactive Reasoning (PIR), a new reasoning paradigm that transforms LLMs from passive solvers into proactive inquirers that interleave reasoning with clarification. Unlike existing search- or tool-based frameworks that primarily address knowledge uncertainty by querying external environments, PIR targets premise- and intent-level uncertainty through direct interaction with the user. PIR is implemented via two core components: (1) an uncertainty-aware supervised fine-tuning procedure that equips models with interactive reasoning capability, and (2) a user-simulator-based policy optimization framework driven by a composite reward that aligns model behavior with user intent. Extensive experiments on mathematical reasoning, code generation, and document editing demonstrate that PIR consistently outperforms strong baselines, achieving up to 32.70\% higher accuracy, 22.90\% higher pass rate, and 41.36 BLEU improvement, while reducing nearly half of the reasoning computation and unnecessary interaction turns. Further reliability evaluations on factual knowledge, question answering, and missing-premise scenarios confirm the strong generalization and robustness of PIR. Model and code are publicly available at: \href{https://github.com/SUAT-AIRI/Proactive-Interactive-R1}

연구 동기 및 목표

  • 프롬프트가 불완전하거나 모호할 때 현재의 추론 LLM에서 나타나는 '블라인드 셀프-생각' 문제를 식별한다.
  • 추론 과정에서 적극적 명확화 및 사용자 의도와의 정렬을 가능하게 하는 PIR를 개발한다.
  • 상호작용 행동을 최적화하기 위한 불확실성 인식 데이터 증강 파이프라인과 강화학습 프레임워크를 만든다.
  • 수학적 추론, 코드 생성, 문서 편집 작업에서 PIR의 효과를 입증한다.
  • 사실 지식, 질문 응답, 누락된 전제 시나리오에 대한 일반화 가능성을 평가한다.

제안 방법

  • 불확실성 인식 상호작용 데이터 증강은 명확화 질문과 시뮬레이션된 사용자 응답을 삽입하여 고불확실성 추론 단계를 '생각하고 물어보기' 경로로 전환한다.
  • 보강된 think-then-ask 시퀀스에 대해 지도학습 미세조정을 수행하여 추론, 탐구, 피드백 반영 간의 급격한 전환을 학습한다.
  • US-GRPO: 다이나믹한 사용자 시뮬레이터를 갖춘 그룹 상대 정책 최적화 프레임워크로, 합성 보상 아래에서 적극적 질의응답을 최적화한다.
  • 정답률(외재적)과 상호작용 품질 지표(내재적)를 결합한 복합 보상을 통해 정확도, 효율성, 도움이 되는 명확화를 균형 있게 추구한다.
  • KL-정규화 정책 업데이트를 GRPO를 통해 학습을 안정시키고 별도의 가치 함수를 훈련하지 않는다.
Figure 1: The Proactive Interactive Reasoning (PIR) Paradigm. The schematic contrasts inefficient "blind self-thinking" on ambiguous queries with the PIR approach. PIR utilizes uncertainty detection and a two-phase optimization mechanism to enable proactive clarification with a user simulator, align
Figure 1: The Proactive Interactive Reasoning (PIR) Paradigm. The schematic contrasts inefficient "blind self-thinking" on ambiguous queries with the PIR approach. PIR utilizes uncertainty detection and a two-phase optimization mechanism to enable proactive clarification with a user simulator, align

실험 결과

연구 질문

  • RQ1LLM이 누락된 전제나 의도 차이를 감지하고 추론 중에 적극적으로 명확화 질문을 제기할 수 있는가?
  • RQ2다양한 불확실성 구조를 가진 작업 전반에서 적극적 상호작용 추론이 정확도, 효율성, 견고성을 향상시키는가?
  • RQ3사용자 시뮬레이터의 품질과 보상 설계가 학습 및 일반화에 어떤 영향을 미치는가?

주요 결과

  • PIR은 강력한 기준선 대비 다양한 작업에서 최대 32.70% 높은 정확도, 22.90% 높은 합격률, 그리고 41.36 BLEU 향상을 달성한다.
  • PIR은 작업당 약 2k 토큰의 추론 계산을 줄이고 불필요한 상호작용 차례를 절반으로 줄인다.
  • 동적 사용자 시뮬레이터를 갖춘 US-GRPO는 효과적인 질문 전략 학습과 상호작용 하에서의 추론 안정화에 필수적이다.
  • PIR은 비대화형 벤치마크에도 일반화되며 사실 지식, 질의 응답, 누락된 전제 시나리오에서 견고함을 보여준다.
Figure 2: Overview of the PIR Framework. The framework operates in two phases to transition LLMs from passive solvers to active inquirers.
Figure 2: Overview of the PIR Framework. The framework operates in two phases to transition LLMs from passive solvers to active inquirers.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.