[論文レビュー] Transformers converge to invariant algorithmic cores
論文は、トランスフォーマーのタスク性能に必要かつ十分な低次元のアルゴリズミック・コアを抽出し、コアが独立した実行で収束することを示し、GPT-2スケール全体で1次元の主語-動詞一致コアが存在することを示す。これにより、不変の計算構造が浮かび上がる。
Large language models exhibit sophisticated capabilities, yet understanding how they work internally remains a central challenge. A fundamental obstacle is that training selects for behavior, not circuitry, so many weight configurations can implement the same function. Which internal structures reflect the computation, and which are accidents of a particular training run? This work extracts algorithmic cores: compact subspaces necessary and sufficient for task performance. Independently trained transformers learn different weights but converge to the same cores. Markov-chain transformers embed 3D cores in nearly orthogonal subspaces yet recover identical transition spectra. Modular-addition transformers discover compact cyclic operators at grokking that later inflate, yielding a predictive model of the memorization-to-generalization transition. GPT-2 language models govern subject-verb agreement through a single axis that, when flipped, inverts grammatical number throughout generation across scales. These results reveal low-dimensional invariants that persist across training runs and scales, suggesting that transformer computations are organized around compact, shared algorithmic structures. Mechanistic interpretability could benefit from targeting such invariants -- the computational essence -- rather than implementation-specific details.
研究の動機と目的
- トレーニング目標が内部回路よりも挙動を規定するという非同定性の問題を動機づける。
- タスク性能に必要かつ十分な低次元のアルゴリズム・コアの部分空間を抽出する方法を開発する。
- 独立して訓練されたトランスフォーマーが内部重みに関係なく類似のコアへ収束することをDemonstrateする。
- Markov連鎖、モジュラー加算、GPT-2言語モデルを含む段階的に複雑な設定へコア抽出を適用する。
- 普遍的で1次元の合意コアがGPT-2スケール全体で主語-動詞の数に支配的な役割を果たすことを示す。
提案手法
- アルゴリズム・コアを、タスク性能に対するablationを通じて必要かつ十分な低次元の部分空間として定義する。
- ACE(Algorithmic Core Extraction)を用いてモデルの隠れ状態からコアを抽出し、十分性/必要性を検証する。
- コア座標内で線形演算子を適合させ、タスク動力学を回復させ、スペクトルを真の動力学と比較する。
- 独立に訓練されたモデル間で幾何学的・統計的整合性を比較する(射影子の重なり、主位角、CCA)。
- モジュラー加算については、groking過程でコア形成を分析し、コアの膨張をウェイトデケイ下で追跡する。
- GPT-2 Small/Medium/Largeへコア抽出を適用し、1次元の合意コアを同定して因果介入(必要性・十分性・反転)を検証する。

実験結果
リサーチクエスチョン
- RQ1トランスフォーマーには、タスク性能に対して必要かつ十分な低次元のアルゴリズミック・コアが存在するのか?
- RQ2独立して訓練された異なる重みを持つモデル間で、これらのコアは共有されているのか?
- RQ3コア内の内部ダイナミクスは機械的に特徴づけられるのか(例:マルコフ性や回転演算子として)?
- RQ4GPT-2スケール全体で、言語計算(主語–動詞一致)の普遍的なコアが存在するのか?
主な発見
- 同じマルコフタスクで訓練された独立した1層トランスフォーマーは、性能に必要かつ十分な3次元コアへ収束する。
- 独立モデル由来のコアは幾何学的にはずれているが統計的には整合しており、コア次元間でほぼ1の典型相関を示す。
- コア内で線形ダイナミクスを適合させると、固有値がマルコフ遷移行列と一致するground-truthのマルコフスペクトルを回復する(Perron-Frobenius固有値を除く)。
- モジュラー加算では、groking時にコアが形成され、回転的メカニズムを示す。ウェイトデケイが続くと、分布的で冗長なモードのためコア膨張が起こる。
- GPT-2モデル(Small, Medium, Large)では、主語–動詞の一致を統治する1次元の合意コアが存在し、このコアを撹乱・反転させると、オープンエンド生成において文法的数を信頼性高く操作・反転させられる。
- GPT-2スケール全体でコア座標は良好に整合しており、モデル間で文法的数の普遍的・共有エンコードが示唆される。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。