Skip to main content
QUICK REVIEW

[論文レビュー] Anatomical Heterogeneity in Transformer Language Models

Tomasz Wietrzykowski|arXiv (Cornell University)|Mar 19, 2026
Machine Learning in Materials Science被引用数 0
ひとこと要約

要約: 本論文は30層の SmolLM2-135M トランスフォーマーにおける層別の強い非均質性を明らかにし、重要性が層ごとに異なるコア部位、アンチ層、そして訓練コストを削減し性能を向上させることを可能にする実証済み Growth Transformer Training パラダイムを特定します。

ABSTRACT

Current transformer language models are trained with uniform computational budgets across all layers, implicitly assuming layer homogeneity. We challenge this assumption through empirical analysis of SmolLM2-135M, a 30-layer, 135M-parameter causal language model, using five diagnostic metrics: weight predictability (R2), ablation degradation, recovery speed, weight manipulation robustness, and structural analysis. We find profound anatomical heterogeneity: (1) Layer weights follow strong mathematical regularity (R2 = 0.91) with a universal oscillatory delta pattern (correlation ~= -0.50), yet predicted weights cause catastrophic failure due to nonlinear error accumulation. (2) Layer importance spans a 10^7 range, from a critical core (L8-11, up to +63,419% PPL degradation) to anti-layers (L14, L17) whose removal improves performance. (3) Recovery speed correlates with layer importance, indicating differential training requirements. (4) Only weight scaling (alpha = 0.9) preserves model quality among five tested manipulation strategies. (5) Growth Transformer Training, allocating budget by layer importance, achieves ~54% cost reduction. A proof-of-concept experiment confirms this: 4.7x lower validation loss than uniform training at identical parameter count, while being 13% faster.

研究の動機と目的

  • アブレーション後のパープレキシティに対する層ごとの影響を測定して、トランスフォーマー層が機能的に交換可能かを評価する。
  • 圧縮された重みサンプルに対するリッジ回帰で重みの予測可能性を定量化し、R^2 と機能的劣化を分析する。
  • 摂動後の回復ダイナミクスを特徴づけ、層ごとの訓練予算要件を推測する。
  • 特殊な層現象(アンチ層)を特定し、重み操作の有効戦略を評価する。
  • 経験的層重要性に基づく実践的な訓練パラダイムとして Growth Transformer Training を提案・検証する。

提案手法

  • アブレーション劣化と回復速度を含む5つの指標を用いて、全30層の完全な層重要度マップを構築する。
  • 圧縮重みサンプルに対するリッジ回帰で重みの予測可能性を評価し、R^2 と機能的劣化の関係を分析する。
  • 隣接層間のデルタ相関と層を横断する主成分分析(PCA)を用いて重み構造を解析する。
  • 冗長な層に対する5つの重み操作戦略をテストし、生成品質の保持を評価する。
  • 6つの開発段階からなるGrowth Transformer Training の概念実証を実施し、均一な基準線と比較する。

実験結果

リサーチクエスチョン

  • RQ1トランスフォーマー層間に機能的階層が存在し、層別の訓練予算を可能にするのか。
  • RQ2後方の層の重みを前方の重みから予測できても、機能的な交換性を有効にすることはできるのか。
  • RQ3摂動後の回復速度に層間差があり、訓練ニーズの差を示すのか。
  • RQ4アンチ層と呼ばれる層が存在し、その攪乱がモデル性能を改善する可能性はあるのか。
  • RQ5Growth Transformer Training は、損失・速度・効率の点で均一訓練を上回るのか。

主な発見

LayerDegradation (%)CategoryFunctional Role
L00.0RedundantEmbedding boundary
L1+2,737.1CriticalInput parser
L2+186.0CriticalInput parser
L3+13.4RedundantPadding
L4+22.7MinorFeature extraction
L5+8.3RedundantPadding
L6+9.4RedundantPadding
L7+20.3MinorFeature extraction
L8+2,395.6CriticalCore reasoning
L9+378.1CriticalCore reasoning
L10+9,870.7CriticalDeep reasoning
L11+63,419.2CriticalModel brain
L12+6.3RedundantPadding
L13+24.4MinorRefinement
L14+5.0RedundantAnti-layer*
L15+11.1MinorRefinement
L16+20.3MinorRefinement
L17-0.6RedundantAnti-layer*
L18+16.9MinorRefinement
L19+2.6RedundantPadding
L20+25.9MinorRefinement
L21+23.5MinorRefinement
L22+27.8MinorRefinement
L23+66.6ImportantOutput preparation
L24+115.2CriticalOutput core
L25+23.2MinorOutput refinement
L26+19.4MinorOutput refinement
L27+134.8CriticalOutput formatting
L28+211.5CriticalOutput final
L290.0RedundantLN head boundary
  • 層の重要度は幅広い範囲に及び、臨界的コア(L8–L11)とアンチ層(L14, L17)が攪乱時に性能を劣化または向上させる。
  • 重みの予測可能性のR^2は高く(例:mlp.gate_proj で0.909)ながら、予測重みを代入すると非線形誤差の蓄積によりパープレキシティが壊滅的に悪化する。
  • 層間の重み変化は普遍的な振動パターンに従い、デルタ相関は全要素で約 -0.50 であり、残差接続に補償機構があることを示唆する。
  • 5つの重み操作戦略のうち、冗長層に対する重みスケーリング0.9のみ生成品質を保持し、他はパープレキシティを爆発させる。
  • Growth Transformer Training は6段階の開発プロトコルで、同じステップ数の均一訓練より検証損失を4.7x低く、概念実証実験で13%高速、予算の半分で2.1x低い損失を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。