[論文レビュー] Circuit Fingerprints: How Answer Tokens Encode Their Geometrical Path
本論文は、回答トークンが生成回路の幾何学的経路をトランスフォーマ Activation 空間にエンコードしていると提案する。読み出し/書き込みのデュアル性を示し、回答トークンの方向から回路構造を読み取り、同じ方向でモデル挙動を操作することで、勾配なしの回路発見と感情制御の効果的な steering を実現する。
Circuit discovery and activation steering in transformers have developed as separate research threads, yet both operate on the same representational space. Are they two views of the same underlying structure? We show they follow a single geometric principle: answer tokens, processed in isolation, encode the directions that would produce them. This Circuit Fingerprint hypothesis enables circuit discovery without gradients or causal intervention -- recovering comparable structure to gradient-based methods through geometric alignment alone. We validate this on standard benchmarks (IOI, SVA, MCQA) across four model families, achieving circuit discovery performance comparable to gradient-based methods. The same directions that identify circuit components also enable controlled steering -- achieving 69.8\% emotion classification accuracy versus 53.1\% for instruction prompting while preserving factual accuracy. Beyond method development, this read-write duality reveals that transformer circuits are fundamentally geometric structures: interpretability and controllability are two facets of the same object.
研究の動機と目的
- バックプロパゲーションなしで、幾何的整列と回答トークンの方向から回路所属を読み取れることを実証する。
- 回路構造を同定するのに使用される同じ方向が、モデル挙動の書き込み/ steering にも利用できることを示す。
- 特徴回路が活性化空間に幾何的にエンコードされ、解釈性と制御性を結びつける。
- IOI、SVA、MCQA タスクで複数のモデルファミリに対して検証し、勾配ベースのベースラインと比較する。
提案手法
- 分離した回答トークンの無効化空間における差分からターゲット方向を抽出する(Δr^(L))。
- 残差空間の共役混乱を避けるため、部品固有の空間での各成分の整合性を計算する(式4、5)。
- ヘッドのエッジレベルの重要度を、Q、K、V チャンネルを横断するシャープリーに基づく分解で分解する(式7-9)。
- 逆伝播による総合部品重要度を得るため、直接寄与とエッジ寄与を集計する(アルゴリズム1)。
- 回答プロトタイプから介入部分空間を構築し、選択ヘッドに適用して幾何的 steering を実証する(式11-13)。
- モデルファミリ全体にわたって、勾配ベースのベースライン(EAP、EAP-IG)と競合する CPR および CMD 指標で回路発見を評価する。

実験結果
リサーチクエスチョン
- RQ1回答トークンは勾配なしで幾何的整列を介して生成回路の構成要素を明らかにできるか?
- RQ2回路要素を特定するのと同じ方向は、モデル出力の制御可能な steer を可能にするか?
- RQ3トランスフォーマー回路は、活性化空間に幾何的な構造として本質的にエンコードされており、読み書きデュアル性を支持するか?
- RQ4幾何的発見はIOI、SVA、MCQA、およびモデルファミリ間で堅牢か?
- RQ5命令やプロンプトからの指示ベースの方向が、タスク特異的数据なしに特徴別の steering を生み出せるか?
主な発見
| Model | Method | IOI CMD | IOI CPR | SVA CMD | SVA CPR | MCQA CMD | MCQA CPR |
|---|---|---|---|---|---|---|---|
| GPT2-Small | EAP | 0.03 | 0.97 | 0.06 | 0.94 | N/A | N/A |
| GPT2-Small | EAP-IG-inputs | 0.03 | 0.97 | 0.05 | 0.95 | N/A | N/A |
| GPT2-Small | CF (ours) | 0.06 | 0.98 | 0.09 | 0.91 | N/A | N/A |
| Qwen2.5-0.5B | EAP | 0.05 | 0.95 | 0.05 | 0.96 | 0.06 | 94.0 |
| Qwen2.5-0.5B | EAP-IG-inputs | 0.01 | 1.00 | 0.05 | 0.99 | 0.05 | 95.0 |
| Qwen2.5-0.5B | CF (ours) | 0.04 | 0.96 | 0.06 | 0.94 | 0.09 | 92.0 |
| Llama3.2-1B | EAP | 0.02 | 0.99 | 0.04 | 1.00 | 0.13 | 0.87 |
| Llama3.2-1B | EAP-IG-inputs | 0.01 | 0.99 | 0.03 | 0.98 | 0.05 | 95.0 |
| Llama3.2-1B | CF (ours) | 0.02 | 0.99 | 0.05 | 0.96 | 0.13 | 0.87 |
| OPT-1.3B | EAP | 0.01 | 0.99 | 0.01 | 0.99 | 0.05 | 0.95 |
| OPT-1.3B | EAP-IG-inputs | 0.00 | 1.50 | 0.01 | 1.00 | 0.04 | 0.96 |
| OPT-1.3B | CF (ours) | 0.01 | 0.99 | 0.05 | 0.95 | 0.07 | 0.93 |
- CFはIOI、SVA、MCQA で複数のモデルに対して、勾配ベースのベースライン(CMDおよびCPR)と同程度の回路発見を達成。
- 回路要素を同定するのに用いる同じ方向は steering も可能にし、感情分類の精度は instruction prompting で 69.8% に改善、従来の 53.1% から向上。
- エッジレベル分解は Q/K/V の寄与を属性付けし、ルーティング情報の加法性を保持。
- 回答トークンの方向を用いた steering は、活性化パッチングと同程度の因果効果を生み、介入強度が完全に適用された場合も正解の抑制と同様の効果を示す。
- instruction prefix 由来のプロンプト指向は、感情と言語をまたいだ steering に一般化し、読み書きの一貫性を示す。
- より大きなモデルは CMD と CPR が良好で、モデル間で概念の分離が改善されることを示唆。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。