Skip to main content
QUICK REVIEW

[论文解读] Transcoders Find Interpretable LLM Feature Circuits

Jacob Dunefsky, Philippe Chlenski|arXiv (Cornell University)|Jun 17, 2024
Natural Language Processing Techniques被引用 6
一句话总结

本论文提出 transcoders 作为对 MLP 子层的宽且稀疏激活近似,在保持保真度的同时实现可解释电路分析,并在多种模型规模下在稀疏性、保真性和人类可解释性方面超过稀疏自编码器 (SAEs)。

ABSTRACT

A key goal in mechanistic interpretability is circuit analysis: finding sparse subgraphs of models corresponding to specific behaviors or capabilities. However, MLP sublayers make fine-grained circuit analysis on transformer-based language models difficult. In particular, interpretable features -- such as those found by sparse autoencoders (SAEs) -- are typically linear combinations of extremely many neurons, each with its own nonlinearity to account for. Circuit analysis in this setting thus either yields intractably large circuits or fails to disentangle local and global behavior. To address this we explore transcoders, which seek to faithfully approximate a densely activating MLP layer with a wider, sparsely-activating MLP layer. We introduce a novel method for using transcoders to perform weights-based circuit analysis through MLP sublayers. The resulting circuits neatly factorize into input-dependent and input-invariant terms. We then successfully train transcoders on language models with 120M, 410M, and 1.4B parameters, and find them to perform at least on par with SAEs in terms of sparsity, faithfulness, and human-interpretability. Finally, we apply transcoders to reverse-engineer unknown circuits in the model, and we obtain novel insights regarding the "greater-than circuit" in GPT2-small. Our results suggest that transcoders can prove effective in decomposing model computations involving MLPs into interpretable circuits. Code is available at https://github.com/jacobdunefsky/transcoder_circuits/.

研究动机与目标

  • 激发并实现对 Transformer 的 MLP 子层的细粒度机械性可解释性。
  • 开发能够以稀疏方式近似 MLP 输出并对原始计算保持保真度的 transcoder。
  • 证明基于 transcoder 的电路能够将输入相关贡献与输入不变贡献区分开。
  • 表明 transcoder 支持新的电路分析方法并对未知模型电路进行逆向工程。
  • 提供跨多个模型规模的工具和实证证据。

提出的方法

  • 将 transcoder 定义为一个宽的 ReLU MLP,只有一层隐藏层,学习特征向量的稀疏线性组合以近似一个 MLP 子层的输出。
  • 对激活应用 L1 稀疏性惩罚,并使用保真损失以使输出与原始 MLP 子层的输出保持一致来训练 transcoder。
  • 在解释性、稀疏性和保真性方面,将 transcoder 与 SAEs 在 GPT2-small、Pythia-410M 和 Pythia-1.4B 上进行比较。
  • 开发一种电路分析方法,利用 transcoder 连接将属性分解为输入相关项和输入不变项。
  • 引入去嵌入(de-embedding)以概括输入不变行为,并进行盲案例研究以对特征进行逆向工程。
  • 将该方法应用于分析 GPT2-small 的 greater-than 电路及其他任务。
Transcoders Find Interpretable LLM Feature Circuits

实验结果

研究问题

  • RQ1跨模型尺寸,transcoders 是否能够提供既保真又稀疏的 MLP 子层近似?
  • RQ2transcoder 特征是否能够产生可解释的模式,与 SAEs 相当或更好?
  • RQ3基于 transcoder 的电路分析是否能够将输入相关信息与输入不变信息分离?
  • RQ4通过 transcoder 分析可以对已知电路(如 GPT2-small 的 greater-than 电路)获得哪些新的见解?

主要发现

  • Transcoders 在高达 1.4B 参数的模型中,达到与 SAEs 相等或更好的稀疏性-保真度权衡。
  • 对 transcoder 特征的定性人类可解释性与 SAEs 相当,部分特征被认为是上下文无关的。
  • 稀疏性-准确性帕累托前沿显示 transcoder 常常优于 SAEs,对更大模型的差距更大。
  • 使用 transcoder 的新型电路分析方法将特征之间边的贡献分解为输入不变和输入相关。
  • 盲测案例研究证明在未查看实际触发提示下即可进行逆向工程。
  • 在 GPT2-small 中,transcoder 分析对 greater-than 电路提供了与先前神经元分析一致的见解,同时突出稀疏、可解释的特征集合。
Transcoders Find Interpretable LLM Feature Circuits

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。