QUICK REVIEW

[論文レビュー] Recursive Think-Answer Process for LLMs and VLMs

Byung-Kwan Lee, Youngchae Chee|arXiv (Cornell University)|Mar 2, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

R-TAPは信頼性ガイド付き再帰ループを用いてLLMとVLMの推論を反復的に洗練させる。訓練済みConfidence Generatorと2つの報酬信号を用い、追加の推論コストなしで精度と推論安定性を向上させる。

ABSTRACT

Think-Answer reasoners such as DeepSeek-R1 have made notable progress by leveraging interpretable internal reasoning. However, despite the frequent presence of self-reflective cues like "Oops!", they remain vulnerable to output errors during single-pass inference. To address this limitation, we propose an efficient Recursive Think-Answer Process (R-TAP) that enables models to engage in iterative reasoning cycles and generate more accurate answers, going beyond conventional single-pass approaches. Central to this approach is a confidence generator that evaluates the certainty of model responses and guides subsequent improvements. By incorporating two complementary rewards-Recursively Confidence Increase Reward and Final Answer Confidence Reward-we show that R-TAP-enhanced models consistently outperform conventional single-pass methods for both large language models (LLMs) and vision-language models (VLMs). Moreover, by analyzing the frequency of "Oops"-like expressions in model responses, we find that R-TAP-applied models exhibit significantly fewer self-reflective patterns, resulting in more stable and faster inference-time reasoning. We hope R-TAP pave the way evolving into efficient and elaborated methods to refine the reasoning processes of future AI.

研究の動機と目的

Think-Answerモデルにおける反復的内省の必要性を動機付け、単一パスエラーの低減と信頼性の向上を目指す。
言語のみの推論タスクと多模態推論タスクの両方に再帰的思考を一般化する。
Reasoningの信頼性を評価し再帰的改良を導くためのConfidence Generatorを導入する。
再帰的推論を訓練するための二重報酬フレームワーク（Recursive Confidence IncreaseとFinal Answer Confidence）を開発する。
テスト時の推論効率を維持しつつ、さまざまなベンチマークでの向上を実証する。

提案手法

Confidence Generatorをベースモデルから初期化し、Think-Answerの各ステップについて0〜1の信頼スコアを出力するよう微調整する。
prior Think-Answersを条件として出力されるo^(t+1)を生成する再帰的Think-Answer生成スキームを定義し、反復的な洗練を可能にする。
2つの信頼ベース報酬（Recursively Confidence Increase Rewardと Final Answer Confidence Reward）と従来報酬を組み合わせ、訓練を導く。
2段階の訓練パイプラインを採用：Stage 1はConfidence Generatorの二値正誤ラベルによる supervised pre-training、Stage 2はGRPOを用いた強化学習で信頼信号の下で再帰的推論を最適化。
訓練時には再帰深度Tを固定して効率的なバッチサンプリングとし、訓練時のみConfidence Generatorを使用（推論時コストなし）。
訓練の実装詳細として、訓練ハードウェア（NVIDIA A100）、バッチ生成（事前学習用N=128サンプル、RL時G=12出力）、GRPOのハイパーパラメータ等を含む。

実験結果

リサーチクエスチョン

RQ1R-TAPはLLMとVLMの両方で、数理推論およびマルチモーダル推論ベンチマークにおいて精度を向上させるか。
RQ2信頼-guided再帰推論ループは自己反省的な失敗（例："Oops!"）を減らし、推論時間の増加を伴わず推論を速めることができるか。
RQ3Confidence Generatorは言語オンリーとマルチモーダルの設定で効果的かつ訓練中に信頼性の高い信頼推定を提供できるよう訓練可能か。
RQ4提案するRecursive Confidence IncreaseとFinal Answer Confidence報酬は、推論の質と深さにどのような影響を与えるか。

主な発見

R-TAPは、単一パスのベースラインと比較して、言語・視覚言語ベンチマークの多様な分野で強力かつ一貫した性能向上を示す。
R-TAPで訓練されたモデルは、推論時の自己反省的エラー指摘が著しく減少し、より安定かつ速い推論を示す。
Confidence Generatorは訓練時のみ使用され、推論時の効率を維持しつつ内部的自己評価と選択的改良を可能にする。
信頼に基づく報酬を伴う再帰的訓練は、思考を深め、複数のサイクルで訂正された推論を促進し、最終回答の品質を向上させる。
複数のモデルファミリとベンチマークでの定量的結果は、LLMsとVLMsの両方に対するR-TAPの広範な適用性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。