Skip to main content
QUICK REVIEW

[論文レビュー] Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought

Siddharth Boppana, Annabel Ma|arXiv (Cornell University)|Mar 5, 2026
Embodied and Extended Cognition被引用数 0
ひとこと要約

この論文は、モデルが生成したCoTより前に内部の最終回答の自信を露呈する“performative chain-of-thought”を示し、課題難易度とモデルサイズなどの撹乱が推論がperformativeか真の推論かを影響すること、また効率化のためのattention-probeに基づく早期出口を提案することを示している。

ABSTRACT

We provide evidence of performative chain-of-thought (CoT) in reasoning models, where a model becomes strongly confident in its final answer, but continues generating tokens without revealing its internal belief. Our analysis compares activation probing, early forced answering, and a CoT monitor across two large models (DeepSeek-R1 671B & GPT-OSS 120B) and find task difficulty-specific differences: The model's final answer is decodable from activations far earlier in CoT than a monitor is able to say, especially for easy recall-based MMLU questions. We contrast this with genuine reasoning in difficult multihop GPQA-Diamond questions. Despite this, inflection points (e.g., backtracking, 'aha' moments) occur almost exclusively in responses where probes show large belief shifts, suggesting these behaviors track genuine uncertainty rather than learned "reasoning theater." Finally, probe-guided early exit reduces tokens by up to 80% on MMLU and 30% on GPQA-Diamond with similar accuracy, positioning attention probing as an efficient tool for detecting performative reasoning and enabling adaptive computation.

研究の動機と目的

  • 推論するLLMがCoTのシーケンス中に内部の最終回答を早期に開示するかを調べる。
  • タスク難易度とモデルサイズに応じてperformative CoTと真の段階的推論を区別する。
  • 活性化から最終回答を復元する注意ベースのプローブを開発・評価する。
  • 精度を損なうことなくトークン使用量を削減する calibratedな早期退出の実現可能性を評価する。

提案手法

  • レイヤー活性化上で最終回答を予測する注意プローブを訓練する。
  • 中間ステップでの強制回答 prompting を用いてモデルの最終予測を露出させる。
  • CoTモニターを用いてCoTプレフィックスから最終回答を信号する時を検出する。
  • タスクとモデル間でプローブ/強制回答信号、CoTモニター信号、内部信念の変化を比較する。
  • プローブの較正と、それによる早期退出のトークン節約能力を評価する。
Figure 1 : Early decoding helps us identify performative reasoning, when an LLM knows what it will answer. We study whether a reasoning LLM’s final answer can be decoded given a prefix of its chain of thought up to an intermediate token $x$ . We use this to identify performative reasoning , where a
Figure 1 : Early decoding helps us identify performative reasoning, when an LLM knows what it will answer. We study whether a reasoning LLM’s final answer can be decoded given a prefix of its chain of thought up to an intermediate token $x$ . We use this to identify performative reasoning , where a

実験結果

リサーチクエスチョン

  • RQ1注意ベースのプローブはChain-of-Thoughtの prefixes からモデルの最終回答を復元できるか。
  • RQ2タスク難易度とモデルサイズによってperformative CoTはさまざまなモデル・ベンチマークでどう変化するか。
  • RQ3推論の転換点は真の信念更新に対応するのか、それともperformativeな振る舞いか。
  • RQ4較正済みプローブは、精度を損なうことなく安全かつ効率的な早期退出を可能にするか。

主な発見

Model / DatasetProbe vs MonitorForced vs Monitor
DeepSeek-R1 (MMLU)0.4170.505
DeepSeek-R1 (GPQA-D)0.0120.010
GPT-OSS (MMLU)0.4350.334
GPT-OSS (GPQA-D)0.2270.185
  • 注意プローブは後半層の活性化から最終回答を復元できるが、線形プローブは失敗する。
  • 易しいタスク(例:MMLU)では高いperformative CoTが見られ、プローブ/強制回答はCoTモニターよりも早期を予測する。一方で難しいタスク(例:GPQA-D)ではより真の推論が見られる。
  • 推論の転換点(バックトラック、気づき)は主に内部自信の変化時に生じ、ケースによっては真の更新を示す。
  • モデルサイズとタスク難易度はperformativityを調整し、大きなモデルと難しいタスクほどより忠実なCoTに向かい、小さなモデルは最終回答へ到達するまでのテスト時計算が多く必要となる。
  • 較正された注意プローブは効果的な早期退出を可能にし、MMLU-Reduxで最大約80%のトークン節約、GPQA-Diamondで約30%の節約を、同等の精度で達成する。
Figure 2 : Accuracy of three early decoding methods by position of DeepSeek-R1 and GPT-OSS on MMLU-Redux and GPQA-Diamond. MMLU (left): For both models, probing and forced answering predict the models’ predictions with much higher accuracy earlier than CoT Monitoring. The CoT monitor’s accuracy rapi
Figure 2 : Accuracy of three early decoding methods by position of DeepSeek-R1 and GPT-OSS on MMLU-Redux and GPQA-Diamond. MMLU (left): For both models, probing and forced answering predict the models’ predictions with much higher accuracy earlier than CoT Monitoring. The CoT monitor’s accuracy rapi

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。