QUICK REVIEW

[論文レビュー] Anatomical Heterogeneity in Transformer Language Models

Tomasz Wietrzykowski|arXiv (Cornell University)|Mar 19, 2026

Machine Learning in Materials Science被引用数 0

ひとこと要約

要約: 本論文は30層の SmolLM2-135M トランスフォーマーにおける層別の強い非均質性を明らかにし、重要性が層ごとに異なるコア部位、アンチ層、そして訓練コストを削減し性能を向上させることを可能にする実証済み Growth Transformer Training パラダイムを特定します。

ABSTRACT

Current transformer language models are trained with uniform computational budgets across all layers, implicitly assuming layer homogeneity. We challenge this assumption through empirical analysis of SmolLM2-135M, a 30-layer, 135M-parameter causal language model, using five diagnostic metrics: weight predictability (R2), ablation degradation, recovery speed, weight manipulation robustness, and structural analysis. We find profound anatomical heterogeneity: (1) Layer weights follow strong mathematical regularity (R2 = 0.91) with a universal oscillatory delta pattern (correlation ~= -0.50), yet predicted weights cause catastrophic failure due to nonlinear error accumulation. (2) Layer importance spans a 10^7 range, from a critical core (L8-11, up to +63,419% PPL degradation) to anti-layers (L14, L17) whose removal improves performance. (3) Recovery speed correlates with layer importance, indicating differential training requirements. (4) Only weight scaling (alpha = 0.9) preserves model quality among five tested manipulation strategies. (5) Growth Transformer Training, allocating budget by layer importance, achieves ~54% cost reduction. A proof-of-concept experiment confirms this: 4.7x lower validation loss than uniform training at identical parameter count, while being 13% faster.

研究の動機と目的

アブレーション後のパープレキシティに対する層ごとの影響を測定して、トランスフォーマー層が機能的に交換可能かを評価する。
圧縮された重みサンプルに対するリッジ回帰で重みの予測可能性を定量化し、R^2 と機能的劣化を分析する。
摂動後の回復ダイナミクスを特徴づけ、層ごとの訓練予算要件を推測する。
特殊な層現象（アンチ層）を特定し、重み操作の有効戦略を評価する。
経験的層重要性に基づく実践的な訓練パラダイムとして Growth Transformer Training を提案・検証する。

提案手法

アブレーション劣化と回復速度を含む5つの指標を用いて、全30層の完全な層重要度マップを構築する。
圧縮重みサンプルに対するリッジ回帰で重みの予測可能性を評価し、R^2 と機能的劣化の関係を分析する。
隣接層間のデルタ相関と層を横断する主成分分析（PCA）を用いて重み構造を解析する。
冗長な層に対する5つの重み操作戦略をテストし、生成品質の保持を評価する。
6つの開発段階からなるGrowth Transformer Training の概念実証を実施し、均一な基準線と比較する。

実験結果

リサーチクエスチョン

RQ1トランスフォーマー層間に機能的階層が存在し、層別の訓練予算を可能にするのか。
RQ2後方の層の重みを前方の重みから予測できても、機能的な交換性を有効にすることはできるのか。
RQ3摂動後の回復速度に層間差があり、訓練ニーズの差を示すのか。
RQ4アンチ層と呼ばれる層が存在し、その攪乱がモデル性能を改善する可能性はあるのか。
RQ5Growth Transformer Training は、損失・速度・効率の点で均一訓練を上回るのか。

主な発見

Layer	Degradation (%)	Category	Functional Role
L0	0.0	Redundant	Embedding boundary
L1	+2,737.1	Critical	Input parser
L2	+186.0	Critical	Input parser
L3	+13.4	Redundant	Padding
L4	+22.7	Minor	Feature extraction
L5	+8.3	Redundant	Padding
L6	+9.4	Redundant	Padding
L7	+20.3	Minor	Feature extraction
L8	+2,395.6	Critical	Core reasoning
L9	+378.1	Critical	Core reasoning
L10	+9,870.7	Critical	Deep reasoning
L11	+63,419.2	Critical	Model brain
L12	+6.3	Redundant	Padding
L13	+24.4	Minor	Refinement
L14	+5.0	Redundant	Anti-layer*
L15	+11.1	Minor	Refinement
L16	+20.3	Minor	Refinement
L17	-0.6	Redundant	Anti-layer*
L18	+16.9	Minor	Refinement
L19	+2.6	Redundant	Padding
L20	+25.9	Minor	Refinement
L21	+23.5	Minor	Refinement
L22	+27.8	Minor	Refinement
L23	+66.6	Important	Output preparation
L24	+115.2	Critical	Output core
L25	+23.2	Minor	Output refinement
L26	+19.4	Minor	Output refinement
L27	+134.8	Critical	Output formatting
L28	+211.5	Critical	Output final
L29	0.0	Redundant	LN head boundary

層の重要度は幅広い範囲に及び、臨界的コア（L8–L11）とアンチ層（L14, L17）が攪乱時に性能を劣化または向上させる。
重みの予測可能性のR^2は高く（例：mlp.gate_proj で0.909）ながら、予測重みを代入すると非線形誤差の蓄積によりパープレキシティが壊滅的に悪化する。
層間の重み変化は普遍的な振動パターンに従い、デルタ相関は全要素で約 -0.50 であり、残差接続に補償機構があることを示唆する。
5つの重み操作戦略のうち、冗長層に対する重みスケーリング0.9のみ生成品質を保持し、他はパープレキシティを爆発させる。
Growth Transformer Training は6段階の開発プロトコルで、同じステップ数の均一訓練より検証損失を4.7x低く、概念実証実験で13%高速、予算の半分で2.1x低い損失を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。