Skip to main content
QUICK REVIEW

[论文解读] Language Model Circuits Are Sparse in the Neuron Basis

Aryaman Arora, Zhengxuan Wu|arXiv (Cornell University)|Jan 30, 2026
Explainable Artificial Intelligence (XAI)被引用 0
一句话总结

该论文表明 MLP 激活(神经元基底)产生的电路比 MLP 输出更稀疏且更忠实,与基于 SAE 的电路追踪方法相匹配,使用 RelP 归因定位因果电路。

ABSTRACT

The high-level concepts that a neural network uses to perform computation need not be aligned to individual neurons (Smolensky, 1986). Language model interpretability research has thus turned to techniques such as extit{sparse autoencoders} (SAEs) to decompose the neuron basis into more interpretable units of model computation, for tasks such as extit{circuit tracing}. However, not all neuron-based representations are uninterpretable. For the first time, we empirically show that extbf{MLP neurons are as sparse a feature basis as SAEs}. We use this finding to develop an end-to-end pipeline for circuit tracing on the MLP neuron basis, which locates causal circuitry on a variety of tasks using gradient-based attribution. On a standard subject-verb agreement benchmark (Marks et al., 2025), a circuit of $\approx 10^2$ MLP neurons is enough to control model behaviour. On the multi-hop city $ o$ state $ o$ capital task from Lindsey et al., 2025, we find a circuit in which small sets of neurons encode specific latent reasoning steps (e.g.~`map city to its state'), and can be steered to change the model's output. This work thus advances automated interpretability of language models without additional training costs.

研究动机与目标

  • 研究神经元基表示(MLP 激活)是否能产生与稀疏自编码器(SAEs)相当的稀疏、忠实电路。
  • 开发一个端到端的电路追踪流水线,利用神经元激活和基于梯度的归因来定位因果电路。
  • 在标准基准与非配对数据设置下,将神经元基电路与 SAE 电路进行比较。
  • 在 Llama 3.1 8B Instruct 的任务上展示神经元基电路追踪的实用性,如主谓一致和多跳推理。

提出的方法

  • 用 MLP 激活、MLP 输出、注意力输出、残差流和 SAE 特征来表示电路节点。
  • 使用集成梯度(IG)和 RelP(一遍梯度归因方法)来对节点重要性打分;RelP 用线性近似替代非线性以实现忠实归因。
  • 通过对电路互补部分的平均消融来评估电路,并按先前工作中的标准衡量忠实性与完整性(相对于基线归一化)。
  • 贪心选择顶层归因节点以形成稀疏电路,电路大小 k 可变。
  • 使用 Llama Scope 的 8 倍宽 SAEs 进行对比,以在不同基础上复现 SAE 的结果。
  • 对神经元级节点和边级归因均应用 RelP,包括边流归一化指标。
Figure 1 : Faithfulness and completeness for different choices of representation in the model (residual stream, attention, MLP activations, or MLP outputs) and basis (neurons or SAE) when applying Integrated Gradients, averaged over the 4 SVA tasks with paired data.
Figure 1 : Faithfulness and completeness for different choices of representation in the model (residual stream, attention, MLP activations, or MLP outputs) and basis (neurons or SAE) when applying Integrated Gradients, averaged over the 4 SVA tasks with paired data.

实验结果

研究问题

  • RQ1MLP 激活神经元是否能提供比 SAE 特征更稀疏但同样忠实的电路?
  • RQ2RelP 是否在神经元基电路追踪中改善相对于 IG 的忠实性/完整性?
  • RQ3神经元基电路是否可泛化到非配对数据并复现基于 CLT 的研究发现?
  • RQ4在神经元基电路中,边的性质为何,RelP 是否能识别出比 IG 更忠实的边?
  • RQ5神经元级电路追踪是否能揭示可解释的多跳推理与对模型输出的引导作用?

主要发现

  • MLP 激活产生的电路比 MLP 输出稀疏约 100 倍,同时仍然对模型行为保持忠实。
  • RelP 使 MLP 激活电路与 SAE 电路之间的差距缩小,在 SVA 任务中用约 200 个神经元实现近乎完美的忠实性。
  • RelP 在配对和非配对数据设置下均优于 IG,提升了忠实性,某些情况下提升了完整性。
  • 使用 RelP 的边归因(带停止梯度)在保持高忠实性(>80%)的同时显著减少边集合规模(约占候选边的 10% 左右),达到最佳平衡。
  • 在 Llama 3.1 8B Instruct 上的神经元级电路复现跨层转码器的结果,并通过定位特定神经元簇实现对模型输出的引导。
  • 关于德州首都多跳推理任务的案例研究揭示了与先前 CLT 发现相对应的可解释的神经元簇,并允许对输出进行定向引导。
Figure 2 : Faithfulness and completeness for Integrated Gradients vs. RelP, for different choices of representation in the model and basis (neurons or SAE), averaged over the 4 SVA tasks with paired data
Figure 2 : Faithfulness and completeness for Integrated Gradients vs. RelP, for different choices of representation in the model and basis (neurons or SAE), averaged over the 4 SVA tasks with paired data

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。