[論文レビュー] Reasoning While Asking: Transforming Reasoning Large Language Models from Passive Solvers to Proactive Inquirers
Proactive Interactive Reasoning (PIR) を導入することで、LLM が事前にユーザーへ明確化を求め、質問と推論を組み合わせることにより、精度と効率を向上させるパラダイム。
Reasoning-oriented Large Language Models (LLMs) have achieved remarkable progress with Chain-of-Thought (CoT) prompting, yet they remain fundamentally limited by a \emph{blind self-thinking} paradigm: performing extensive internal reasoning even when critical information is missing or ambiguous. We propose Proactive Interactive Reasoning (PIR), a new reasoning paradigm that transforms LLMs from passive solvers into proactive inquirers that interleave reasoning with clarification. Unlike existing search- or tool-based frameworks that primarily address knowledge uncertainty by querying external environments, PIR targets premise- and intent-level uncertainty through direct interaction with the user. PIR is implemented via two core components: (1) an uncertainty-aware supervised fine-tuning procedure that equips models with interactive reasoning capability, and (2) a user-simulator-based policy optimization framework driven by a composite reward that aligns model behavior with user intent. Extensive experiments on mathematical reasoning, code generation, and document editing demonstrate that PIR consistently outperforms strong baselines, achieving up to 32.70\% higher accuracy, 22.90\% higher pass rate, and 41.36 BLEU improvement, while reducing nearly half of the reasoning computation and unnecessary interaction turns. Further reliability evaluations on factual knowledge, question answering, and missing-premise scenarios confirm the strong generalization and robustness of PIR. Model and code are publicly available at: \href{https://github.com/SUAT-AIRI/Proactive-Interactive-R1}
研究の動機と目的
- 現在の推論LLM におけるプロンプトが不完全または曖昧な場合の盲目的な自己思考問題を特定する。
- 推論中の事前の明確化とユーザー意図との整合を可能にする PIR を開発する。
- 相互作用的な振る舞いを最適化する不確実性対応のデータ拡張パイプラインと強化学習フレームワークを作成する。
- 数学的推論、コード生成、文書編集タスクにおける PIR の有効性を実証する。
- 事実知識、質問応答、欠落前提シナリオへの一般化を評価する。
提案手法
- 不確実性対応の対話型データ拡張により、高い不確実性を伴う推論ステップを思考して尋ねる経路へ変換し、明確化質問と模擬ユーザー応答を挿入する。
- augmented think-then-ask sequence に対する教師あり微調整を行い、推論、問いかけ、フィードバックの取り込み間の急激な切替を学習させる。
- US-GRPO: Group Relative Policy Optimization フレームワークと動的なユーザーシミュレータを用いて、複合報酬の下で積極的な質問を最適化する。
- タスク成功(外部報酬)と相互作用品質指標(内部報酬)を組み合わせた複合報酬により、精度、効率性、適切な明確化のバランスを取る。
- GRPO による KL 正則化ポリシー更新で、別の価値関数の訓練なしに学習を安定化させる。

実験結果
リサーチクエスチョン
- RQ1LLM は欠落前提や意図のギャップを検出し、推論中に事前に明確化質問を自発的に行えるか。
- RQ2プロアクティブな対話的推論は、様々な不確実性構造を持つタスクにおいて精度、効率、頑健性を向上させるか。
- RQ3ユーザーシミュレータと報酬設計の質が学習と一般化にどう影響するか。
主な発見
- PIR は強力なベースラインと比較して、最大で 32.70% の精度向上、32.90% の合格率向上、そして 41.36 BLEU の改善を複数タスクで達成した。
- PIR はタスクあたり約 2k トークンの推論計算を削減し、不要な対話ターンを半減させる。
- 動的なユーザーシミュレータを備えた US-GRPO は、効果的な質問戦略を学習し、対話中の推論を安定化させるのに不可欠である。
- PIR は非対話的なベンチマークにも一般化し、事実知識、質問応答、欠落前提シナリオにおいて頑健性を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。