Skip to main content
QUICK REVIEW

[論文レビュー] Gradient Atoms: Unsupervised Discovery, Attribution and Steering of Model Behaviors via Sparse Decomposition of Training Gradients

J Rosser|arXiv (Cornell University)|Mar 15, 2026
Topic Modeling被引用数 0
ひとこと要約

勾配アトムは、監督なしで文書ごとの学習勾配をスパースなアトムに分解し、共有された更新方向を明らかにする。これらのアトムは解釈可能なタスクタイプと整列し、重み空間で摂動を与えることで監視なしにモデル挙動を誘導できる。

ABSTRACT

Training data attribution (TDA) methods ask which training documents are responsible for a model behavior. However, models often learn broad concepts shared across many examples. Moreover, existing TDA methods are supervised -- they require a predefined query behavior, then score every training document against it -- making them both expensive and unable to surface behaviors the user did not think to ask about. We present Gradient Atoms, an unsupervised method that decomposes per-document training gradients into sparse components ("atoms") via dictionary learning in a preconditioned eigenspace. Each atom captures a shared update direction induced by a cluster of functionally similar documents, directly recovering the collective structure that per-document methods do not address. Among 500 discovered atoms, the highest-coherence ones recover interpretable task-type behaviors -- refusal, arithmetic, yes/no classification, trivia QA -- without any behavioral labels. These atoms double as effective steering vectors: applying them as weight-space perturbations produces large, controllable shifts in model behavior (e.g., bulleted-list generation 33% to 94%; systematic refusal 50% to 0%). The method requires no query--document scoring stage, and scales independently of the number of query behaviors of interest. Code is available at https://github.com/jrosseruk/gradient_atoms.

研究の動機と目的

  • 微分署名を用いた個別ドキュメントの学習データ attribution がファインチューニング中に学習される集合的な勾配構造を見逃すことを示す。
  • 事前整列勾配空間でのスパース辞書学習を通じて共有更新方向を発見する Gradient Atoms を導入する。
  • 発見されたアトムが解釈可能なタスクタイプに対応し、重み空間の摂動を通じてモデル挙動を誘導できることを示す。
  • 従来の TDA 手法の監視不要・クエリ不要な代替として、モデル能力の監査と編集を行う。

提案手法

  • 全ての学習例について個別勾配を抽出する。
  • EKFAC を用いて曲率を補正し、前処理済み固有空間へ勾配を射影する。
  • 射影勾配を正規化し、スパース辞書学習を適用してアトムに分解する。
  • トップ活性化ドキュメントから各アトムのコヒーレンススコアを算出して、共有計算モチーフを検証する。
  • アトムを完全なパラメータ空間へ再射影して誘導ベクトルを得、重みを摂動させて挙動変化を試験する。
Figure 1: Gradient atoms discovered via sparse dictionary learning over 5,000 training-document gradients. Each point is one atom; high-coherence atoms correspond to tightly defined task types.
Figure 1: Gradient atoms discovered via sparse dictionary learning over 5,000 training-document gradients. Each point is one atom; high-coherence atoms correspond to tightly defined task types.

実験結果

リサーチクエスチョン

  • RQ1監督なしの勾配分解で、振る舞いラベルなしに意味のある解釈可能なタスクタイプの挙動を見つけられるか。
  • RQ2勾配アトムは、重み空間の摂動を介してモデル挙動を制御可能に変える有効な誘導ベクトルとして機能するか。
  • RQ3発見されたアトムのコヒーレンスはどれくらいで、スパース性はアトムの品質と誘導可能性にどう影響するか。

主な発見

RankAtomCoherenceActive DocsDescription
1#3480.725139Short factual Q&A—trivia with one-word/numeric answers
2#3280.672110Grammar and sentence editing
3#4150.647156Yes/No/True/False binary classification
4#4580.643124Simple arithmetic
5#4980.614176Multi-category classification and labeling
  • 500 個の勾配アトムが発見され、最も高いコヒーレンスを持つものは、短い事実ベースの QA、文法編集、Yes/No分類、単純な算術、マルチカテゴリ分類など、解釈可能なタスクタイプと整合する。
  • 上位5つのアトムはコヒーレンススコアが 0.5 を超え、トピックではなく明確なタスクタイプに対応している。
  • 未射影のアトムを重み空間の摂動として適用すると挙動を誘導でき、いくつかのアトムは対象タスクで大きく単調な変化を生み出した。
  • 箇条書きと番号付きリストは、フォーマット固有の重み経路を示す分離可能なアトムである。
  • ターゲット挙動の抑制は、アトムとタスク全体を通じて増幅よりも抑制の方が容易である。
Figure 2: Behavioral steering via unsupervised gradient atoms. Red bars show the “toward” direction ( $\theta-\alpha v$ ), blue bars show “away” ( $\theta+\alpha v$ ), and the dashed line marks the clean baseline. Four of five atoms produce large, monotonic steering effects in at least one direction
Figure 2: Behavioral steering via unsupervised gradient atoms. Red bars show the “toward” direction ( $\theta-\alpha v$ ), blue bars show “away” ( $\theta+\alpha v$ ), and the dashed line marks the clean baseline. Four of five atoms produce large, monotonic steering effects in at least one direction

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。