Skip to main content
QUICK REVIEW

[論文レビュー] How to use and interpret activation patching

Stefan Heimersheim, Neel Nanda|arXiv (Cornell University)|Apr 23, 2024
Usability and User Interface Design被引用数 5
ひとこと要約

実務的な activation patching に関する実践的ガイドラインを提供。機構的解釈性の方法論、解釈、指標、よくある落とし穴を網羅。

ABSTRACT

Activation patching is a popular mechanistic interpretability technique, but has many subtleties regarding how it is applied and how one may interpret the results. We provide a summary of advice and best practices, based on our experience using this technique in practice. We include an overview of the different ways to apply activation patching and a discussion on how to interpret the results. We focus on what evidence patching experiments provide about circuits, and on the choice of metric and associated pitfalls.

研究の動機と目的

  • 実務者の経験に基づく activation patching の実用的な助言とベストプラクティスを提供する。
  • activation patching を適用するさまざまな方法を要約し、それらの選択方法を説明する。
  • patching の結果の解釈方法と、それらが回路について何を示すかを論じる。
  • patching 結果の指標、落とし穴、報告の推奨事項を強調する。

提案手法

  • 探索的および確認的 patching モードを説明し、それぞれをいつ使用すべきかを示す。
  • patching のコンポーネント粒度を説明する(例:残差ストリーム、MLP 出力、アテンションヘッド、パス patching)。
  • ノイズ付加(汚染 → クリーン)とデノイズ(クリーン → 汚染)の patching を区別し、それらの解釈的含意を説明する。
  • patching パイプラインを概説する(ソース/デスティネーション・プロンプト、活性化の保存、パッチの適用、出力の観察)。
  • ノイズ付加/デノイズの利点、速度向上(例:AtP*)、およびパス patching を使用する場面を議論する。
  • アクティベーション patching をアブレーションや他の patching 手法(ゼロ、平均、ガウスノイズ)と比較する。
  • プロンプト選択、実験設計(探索的 vs 確認的)、複数の patching 方向の活用についての指針を提供する。

実験結果

リサーチクエスチョン

  • RQ1言語モデルにおける神経回路を示す証拠を提供する patching 実験の種類は何か。
  • RQ2activation patching の結果をどのように解釈して、コンポーネントの十分性と必然性を推定すべきか。
  • RQ3どの指標が patching 効果を最もよく捉え、研究者が避けるべき一般的な落とし穴は何か。
  • RQ4デノイズとノイズの patch が回路構造について何を明らかにするのか、どのように異なるか。
  • RQ5プロンプト選択とモデルのバックアップによる誤解を最小化するためのベストプラクティスは何か。

主な発見

  • activate patching は回路コンポーネントを特定する際に一般にアブレーションより有利である。
  • デノイズはパッチ済みの活性化の十分性をテストし、ノイズは必然性をテストする。二つの方向は対称的ではない。
  • さまざまな指標を用いるべきで、対数出力/対数確率の差が部分的な評価と解釈性の観点から最も情報量が多いことが多い。
  • プロンプトの選択と patching の方向は結果に大きく影響する可能性がある。探索には狭いプロンプトを、確認的なテストには広い分布を用いる。
  • パス patching はコンポーネント間の相互作用を明らかにし、直接効果と媒介効果を区別できる。
  • バックアップ挙動(Hydra 効果)と負の成分に注意;複数の指標を用いることで誤解を緩和できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。