[论文解读] Circuit Fingerprints: How Answer Tokens Encode Their Geometrical Path
论文提出答案令牌在转换器激活空间中编码生成它们的电路的几何路径。它展示了读写对偶性:通过答案令牌方向读取电路结构并用相同方向引导模型行为,在没有梯度的情况下实现有竞争力的电路发现和有效的情感引导。
Circuit discovery and activation steering in transformers have developed as separate research threads, yet both operate on the same representational space. Are they two views of the same underlying structure? We show they follow a single geometric principle: answer tokens, processed in isolation, encode the directions that would produce them. This Circuit Fingerprint hypothesis enables circuit discovery without gradients or causal intervention -- recovering comparable structure to gradient-based methods through geometric alignment alone. We validate this on standard benchmarks (IOI, SVA, MCQA) across four model families, achieving circuit discovery performance comparable to gradient-based methods. The same directions that identify circuit components also enable controlled steering -- achieving 69.8\% emotion classification accuracy versus 53.1\% for instruction prompting while preserving factual accuracy. Beyond method development, this read-write duality reveals that transformer circuits are fundamentally geometric structures: interpretability and controllability are two facets of the same object.
研究动机与目标
- 证明无需反向传播即可通过答案令牌方向的几何对齐来读取电路成员资格。
- 展示用于读取电路结构的相同方向也可用于写入/引导模型行为。
- 确立特征电路在激活空间几何编码的观点,连接可解释性与可控制性。
- 在 IOI、SVA 与 MCQA 任务上对多种模型族进行验证,并与基于梯度的基线进行比较。
提出的方法
- 从孤立答案令牌在活性空间中的差异(Δr^(L))中提取目标方向。
- 在组件原生空间中计算逐分量的对齐,以避免残差-空间混淆(方程式 4、5)。
- 利用基于 Shapley 的分解在 Q、K、V 通道上分解头的边缘重要性(方程式 7-9)。
- 通过反向传播汇总直接贡献和边缘贡献以获得总组件重要性(算法 1)。
- 通过从答案原型构建干预子空间并将其应用于选定头部来展示几何引导(方程式 11-13)。
- 在模型族中对比梯度基线(EAP、EAP-IG)评估电路发现的 CPR 和 CMD 指标。

实验结果
研究问题
- RQ1答案令牌是否可以通过几何对齐在不使用梯度的情况下揭示生成它们的电路组件?
- RQ2用于识别电路组件的相同方向是否也能实现模型输出的可控引导?
- RQ3变换器电路是否本质上是在激活空间编码的几何结构,支持读写双重性?
- RQ4几何发现是否在 IOI、SVA、MCQA 与模型家族的任务中具有鲁棒性?
- RQ5来自指令或提示的提示词方向是否能够在不使用特定任务数据的情况下实现特征级引导?
主要发现
| Model | Method | IOI CMD | IOI CPR | SVA CMD | SVA CPR | MCQA CMD | MCQA CPR |
|---|---|---|---|---|---|---|---|
| GPT2-Small | EAP | 0.03 | 0.97 | 0.06 | 0.94 | N/A | N/A |
| GPT2-Small | EAP-IG-inputs | 0.03 | 0.97 | 0.05 | 0.95 | N/A | N/A |
| GPT2-Small | CF (ours) | 0.06 | 0.98 | 0.09 | 0.91 | N/A | N/A |
| Qwen2.5-0.5B | EAP | 0.05 | 0.95 | 0.05 | 0.96 | 0.06 | 94.0 |
| Qwen2.5-0.5B | EAP-IG-inputs | 0.01 | 1.00 | 0.05 | 0.99 | 0.05 | 95.0 |
| Qwen2.5-0.5B | CF (ours) | 0.04 | 0.96 | 0.06 | 0.94 | 0.09 | 92.0 |
| Llama3.2-1B | EAP | 0.02 | 0.99 | 0.04 | 1.00 | 0.13 | 0.87 |
| Llama3.2-1B | EAP-IG-inputs | 0.01 | 0.99 | 0.03 | 0.98 | 0.05 | 95.0 |
| Llama3.2-1B | CF (ours) | 0.02 | 0.99 | 0.05 | 0.96 | 0.13 | 0.87 |
| OPT-1.3B | EAP | 0.01 | 0.99 | 0.01 | 0.99 | 0.05 | 0.95 |
| OPT-1.3B | EAP-IG-inputs | 0.00 | 1.50 | 0.01 | 1.00 | 0.04 | 0.96 |
| OPT-1.3B | CF (ours) | 0.01 | 0.99 | 0.05 | 0.95 | 0.07 | 0.93 |
- CF 在 IOI、SVA 和 MCQA 的多种模型上实现了与梯度基线(CMD 与 CPR)可比的电路发现。
- 用于识别电路组件的相同方向也能实现引导;情感分类准确率在使用指令提示后提升至 69.8%,而原先为 53.1%。
- 使用 Shapley 值的边缘分解能够归因于 Q/K/V 的贡献,并在路由信息中保持可加性。
- 使用答案令牌方向进行引导的因果效应与激活补丁相当,在完全干预强度下对正确答案的抑制效果相似。
- 来自指令前缀的提示词方向可以泛化到跨情感与语言的引导,证明读写一致性。
- 更大模型显示出更好的 CMD 与 CPR,表明跨模型的概念解耦更完善。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。