QUICK REVIEW

[논문 리뷰] Reasoning While Asking: Transforming Reasoning Large Language Models from Passive Solvers to Proactive Inquirers

Xin Chen, Feng Jiang|arXiv (Cornell University)|2026. 01. 29.

Topic Modeling인용 수 0

한 줄 요약

tldr: Proactive Interactive Reasoning(PIR)을 도입하는 패러다임으로, 추론 LLM이 사용자의 명확화를 적극적으로 구하도록 만들고, 질문과 추론을 교차시키며 정확도와 효율성을 향상시킨다.

ABSTRACT

Reasoning-oriented Large Language Models (LLMs) have achieved remarkable progress with Chain-of-Thought (CoT) prompting, yet they remain fundamentally limited by a \emph{blind self-thinking} paradigm: performing extensive internal reasoning even when critical information is missing or ambiguous. We propose Proactive Interactive Reasoning (PIR), a new reasoning paradigm that transforms LLMs from passive solvers into proactive inquirers that interleave reasoning with clarification. Unlike existing search- or tool-based frameworks that primarily address knowledge uncertainty by querying external environments, PIR targets premise- and intent-level uncertainty through direct interaction with the user. PIR is implemented via two core components: (1) an uncertainty-aware supervised fine-tuning procedure that equips models with interactive reasoning capability, and (2) a user-simulator-based policy optimization framework driven by a composite reward that aligns model behavior with user intent. Extensive experiments on mathematical reasoning, code generation, and document editing demonstrate that PIR consistently outperforms strong baselines, achieving up to 32.70\% higher accuracy, 22.90\% higher pass rate, and 41.36 BLEU improvement, while reducing nearly half of the reasoning computation and unnecessary interaction turns. Further reliability evaluations on factual knowledge, question answering, and missing-premise scenarios confirm the strong generalization and robustness of PIR. Model and code are publicly available at: \href{https://github.com/SUAT-AIRI/Proactive-Interactive-R1}

연구 동기 및 목표

프롬프트가 불완전하거나 모호할 때 현재의 추론 LLM에서 나타나는 '블라인드 셀프-생각' 문제를 식별한다.
추론 과정에서 적극적 명확화 및 사용자 의도와의 정렬을 가능하게 하는 PIR를 개발한다.
상호작용 행동을 최적화하기 위한 불확실성 인식 데이터 증강 파이프라인과 강화학습 프레임워크를 만든다.
수학적 추론, 코드 생성, 문서 편집 작업에서 PIR의 효과를 입증한다.
사실 지식, 질문 응답, 누락된 전제 시나리오에 대한 일반화 가능성을 평가한다.

제안 방법

불확실성 인식 상호작용 데이터 증강은 명확화 질문과 시뮬레이션된 사용자 응답을 삽입하여 고불확실성 추론 단계를 '생각하고 물어보기' 경로로 전환한다.
보강된 think-then-ask 시퀀스에 대해 지도학습 미세조정을 수행하여 추론, 탐구, 피드백 반영 간의 급격한 전환을 학습한다.
US-GRPO: 다이나믹한 사용자 시뮬레이터를 갖춘 그룹 상대 정책 최적화 프레임워크로, 합성 보상 아래에서 적극적 질의응답을 최적화한다.
정답률(외재적)과 상호작용 품질 지표(내재적)를 결합한 복합 보상을 통해 정확도, 효율성, 도움이 되는 명확화를 균형 있게 추구한다.
KL-정규화 정책 업데이트를 GRPO를 통해 학습을 안정시키고 별도의 가치 함수를 훈련하지 않는다.

Figure 1: The Proactive Interactive Reasoning (PIR) Paradigm. The schematic contrasts inefficient "blind self-thinking" on ambiguous queries with the PIR approach. PIR utilizes uncertainty detection and a two-phase optimization mechanism to enable proactive clarification with a user simulator, align

실험 결과

연구 질문

RQ1LLM이 누락된 전제나 의도 차이를 감지하고 추론 중에 적극적으로 명확화 질문을 제기할 수 있는가?
RQ2다양한 불확실성 구조를 가진 작업 전반에서 적극적 상호작용 추론이 정확도, 효율성, 견고성을 향상시키는가?
RQ3사용자 시뮬레이터의 품질과 보상 설계가 학습 및 일반화에 어떤 영향을 미치는가?

주요 결과

PIR은 강력한 기준선 대비 다양한 작업에서 최대 32.70% 높은 정확도, 22.90% 높은 합격률, 그리고 41.36 BLEU 향상을 달성한다.
PIR은 작업당 약 2k 토큰의 추론 계산을 줄이고 불필요한 상호작용 차례를 절반으로 줄인다.
동적 사용자 시뮬레이터를 갖춘 US-GRPO는 효과적인 질문 전략 학습과 상호작용 하에서의 추론 안정화에 필수적이다.
PIR은 비대화형 벤치마크에도 일반화되며 사실 지식, 질의 응답, 누락된 전제 시나리오에서 견고함을 보여준다.

Figure 2: Overview of the PIR Framework. The framework operates in two phases to transition LLMs from passive solvers to active inquirers.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.