Skip to main content
QUICK REVIEW

[論文レビュー] Transcoders Find Interpretable LLM Feature Circuits

Jacob Dunefsky, Philippe Chlenski|arXiv (Cornell University)|Jun 17, 2024
Natural Language Processing Techniques被引用数 6
ひとこと要約

この論文は、広く稀に活性化する近似としてのトランスコーダを導入し、忠実度を保ちながら解釈可能な回路分析を可能にするMLPサブレイヤの近似を実現し、稀疎性・忠実性・人間の解釈可能性の点でSAEsを複数のモデルサイズに渡って上回っている。

ABSTRACT

A key goal in mechanistic interpretability is circuit analysis: finding sparse subgraphs of models corresponding to specific behaviors or capabilities. However, MLP sublayers make fine-grained circuit analysis on transformer-based language models difficult. In particular, interpretable features -- such as those found by sparse autoencoders (SAEs) -- are typically linear combinations of extremely many neurons, each with its own nonlinearity to account for. Circuit analysis in this setting thus either yields intractably large circuits or fails to disentangle local and global behavior. To address this we explore transcoders, which seek to faithfully approximate a densely activating MLP layer with a wider, sparsely-activating MLP layer. We introduce a novel method for using transcoders to perform weights-based circuit analysis through MLP sublayers. The resulting circuits neatly factorize into input-dependent and input-invariant terms. We then successfully train transcoders on language models with 120M, 410M, and 1.4B parameters, and find them to perform at least on par with SAEs in terms of sparsity, faithfulness, and human-interpretability. Finally, we apply transcoders to reverse-engineer unknown circuits in the model, and we obtain novel insights regarding the "greater-than circuit" in GPT2-small. Our results suggest that transcoders can prove effective in decomposing model computations involving MLPs into interpretable circuits. Code is available at https://github.com/jacobdunefsky/transcoder_circuits/.

研究の動機と目的

  • トランスフォーマーのMLPサブレイヤの細粒度な機構的解釈性を動機づけ、実現する。
  • 元の計算に忠実でありつつ、MLP出力を稀 sparse に近似するトランスコーダを開発する。
  • トランスコーダベースの回路が入力依存の寄与と入力不変の寄与を分離することを実証する。
  • トランスコーダが新しい回路分析手法を支援し、未知のモデル回路をリバースエンジニアリングできることを示す。
  • 複数のモデルスケールにわたるツールと実証的証拠を提供する。

提案手法

  • トランスコーダを、MLPサブレイヤの出力を近似するために特徴ベクトルの稀な線形結合を学習する、1つの隠れ層を持つ幅広いReLU MLPとして定義する。
  • 活性化にL1の疎性ペナルティと、元のMLPサブレイヤの出力に一致させる忠実度損失を用いてトランスコーダを訓練する。
  • GPT2-small、Pythia-410M、Pythia-1.4Bに渡って、解釈性、疎性、忠実度の観点でトランスコーダとSAEsを比較する。
  • トランスコーダ接続を用いて寄与を入力依存項と入力不変項に分解する回路分析手法を開発する。
  • 入力不変の振る舞いを要約するデ-エンベディングを導入し、特徴をリバースエンジニアリングするブラインドケーススタディを実施する。
  • このアプローチを適用してGPT2-smallのgreater-than回路や他のタスクを分析する。
Transcoders Find Interpretable LLM Feature Circuits

実験結果

リサーチクエスチョン

  • RQ1トランスコーダは、モデルサイズを超えて、MLPサブレイヤを忠実でありつつ稀な近似を提供できるか?
  • RQ2トランスコーダの特徴は、SAEsと同等またはそれ以上の解釈可能なパターンを生み出すか?
  • RQ3トランスコーダベースの回路分析は、入力依存情報と入力不変情報を分離できるか?
  • RQ4既知の回路(例:GPT2-small greater-than回路)に対して、トランスコーダ分析を通じてどんな新しい洞察が得られるか?

主な発見

  • トランスコーダは1.4Bパラメータまでのモデルで、SAEsと同等またはそれ以上の疎性-忠実性のトレードオフを達成する。
  • トランスコーダ特徴の定性的な人間による解釈性はSAEsと比較可能で、いくつかの特徴は文脈に依存しないと見なされる。
  • 疎性-精度のパレートフロントは、トランスコーダがSAEsをしばしば上回ることを示し、モデルが大きいほど差が大きい。
  • トランスコーダを用いる新しい回路分析手法は、特徴間のエッジについて、入力不変寄与と入力依存寄与への因子分解を生む。
  • ブラインドケーススタディは、実際のトリガープロンプトを見ずにリバースエンジニアリング能力を示す。
  • GPT2-small では、トランスコーダ分析が prior neuronal analyses と一致する greater-than 回路への洞察を提供しつつ、稀 sparse で解釈可能な特徴集合を強調する。
Transcoders Find Interpretable LLM Feature Circuits

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。