[論文レビュー] Me, Myself, and $π$ : Evaluating and Explaining LLM Introspection
この論文は introspection を LLM のポリシーに対する潜在的推論として formalize し、Introspect-Bench を提案して厳密にテストし、 frontier model が attention-diffusion メカニズムを通じて自分自身のポリシーへ特権的アクセスを持つことを示す。
A hallmark of human intelligence is Introspection-the ability to assess and reason about one's own cognitive processes. Introspection has emerged as a promising but contested capability in large language models (LLMs). However, current evaluations often fail to distinguish genuine meta-cognition from the mere application of general world knowledge or text-based self-simulation. In this work, we propose a principled taxonomy that formalizes introspection as the latent computation of specific operators over a model's policy and parameters. To isolate the components of generalized introspection, we present Introspect-Bench, a multifaceted evaluation suite designed for rigorous capability testing. Our results show that frontier models exhibit privileged access to their own policies, outperforming peer models in predicting their own behavior. Furthermore, we provide causal, mechanistic evidence explaining both how LLMs learn to introspect without explicit training, and how the mechanism of introspection emerges via attention diffusion.
研究の動機と目的
- LLM の自ポリシー関数に関する accurate beliefs を formalize する。
- イントロスペクションを短期・長期・逆ポリシーの側面に分解する。
- 外部推論からイントロスペクション的推論を分離する Introspect-Bench を提供する。
- フロンティアモデルを実証的に評価し、モデル間のイントロスペクション能力を分析する。
- 明示的な訓練なしにイントロスペクションが出現する機構的説明を提供する。
提案手法
- ポリシー推論と機構的推論を区別するために f-introspection および (f, θ)-introspection を定義する。
- 短期・長期・逆 introspection をターゲットとするタスクで Introspect-Bench を提案する。
- memorization アーティファクトを避けるためにオープンエンドなタスクで多様な frontier model を評価する。
- 自己ポリシーへの特権アクセスを示すために cross-model calibration を用いる。
- KL ダイバージェンスの比較(p vs p′ vs p*)を通じて長期的イントロスペクションの出現を分析する。
- Logit Lens と注意パターン分析を用いて注意拡散による機構的説明を提供する。
実験結果
リサーチクエスチョン
- RQ1LLM は自分のポリシーとその構成要素について正確な信念を形成できるか。
- RQ2 frontier model は同業他モデルと比較して自分のポリシーへの特権アクセスを示すか。
- RQ3イントロスペクションは明示的な訓練によって生じるのか、それとも標準訓練から生じるのか。
- RQ4イントロスペクションの下にある機構的プロセス(例:注意拡散)は何か。
主な発見
| Model | Kth Word | CoT Pred | Paraphrase | Headsup | Avg |
|---|---|---|---|---|---|
| xAI Grok 4.1 Fast | 57.0% | 58.63% | 60.69% | 91.43% | 66.94% |
| Meta Llama 3.3 70B Instruct | 60.4% | 70.29% | 42.19% | 93.88% | 66.69% |
| OpenAI GPT-4o | 55.8% | 62.99% | 47.12% | 99.18% | 66.27% |
| Qwen Qwen3 235B | 56.4% | 65.07% | 42.43% | 96.53% | 65.11% |
| OpenAI GPT-4.1 Mini | 58.6% | 67.98% | 42.2% | 91.02% | 64.95% |
| Self Introspection | 54.55% | 68.69% | 39.07% | 94.43% | 64.19% |
| Google Gemini 3 Flash Preview | 42.6% | 64.03% | 46.33% | 97.55% | 62.63% |
| Google Gemini 2.5 Flash | 56.0% | 57.32% | 39.08% | 97.35% | 62.44% |
| OpenAI GPT-4o Mini | 50.6% | 62.66% | 36.44% | 96.33% | 61.51% |
| Google Gemini 2.0 Flash 001 | 47.8% | 61.39% | 41.47% | 95.31% | 61.49% |
| NousResearch Hermes 4 405B | 38.2% | 54.14% | 36.26% | 94.49% | 55.77% |
- frontier model は自分のポリシーへの特権アクセスを示し、自己予測タスクで同業他モデルより高い性能を示す。
- Introspect-Bench のタスクは多様であり、一つのタスクで高パフォーマンスを示しても他タスクへの転移が保証されない。
- 長期的イントロスペクションは introspective prompts(非 introspective とは対照的)を用いると整合性が大きく改善され、長期ポリシー挙動への潜在的アクセスを示唆する。
- イントロスペクションの因果要因として注意拡散の機構を支持する証拠があり、層 60 が発散において要となる。
- 明示的な監督なしにイントロスペクションが出現し得ることが、自己予測能力を生じさせるファインチューニング実験で示される。
- 注意拡散はイントロスペクション推論時に観察されるロジットシフトの重要な部分を説明する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。