QUICK REVIEW

[论文解读] Anatomical Heterogeneity in Transformer Language Models

Tomasz Wietrzykowski|arXiv (Cornell University)|Mar 19, 2026

Machine Learning in Materials Science被引用 0

一句话总结

论文揭示了在30层 SmolLM2-135M 变换器中的强层级异质性，识别出一个关键核心、反层以及经证实的 Growth Transformer Training 范式，该范式利用各层重要性来降低训练成本并提升性能。

ABSTRACT

Current transformer language models are trained with uniform computational budgets across all layers, implicitly assuming layer homogeneity. We challenge this assumption through empirical analysis of SmolLM2-135M, a 30-layer, 135M-parameter causal language model, using five diagnostic metrics: weight predictability (R2), ablation degradation, recovery speed, weight manipulation robustness, and structural analysis. We find profound anatomical heterogeneity: (1) Layer weights follow strong mathematical regularity (R2 = 0.91) with a universal oscillatory delta pattern (correlation ~= -0.50), yet predicted weights cause catastrophic failure due to nonlinear error accumulation. (2) Layer importance spans a 10^7 range, from a critical core (L8-11, up to +63,419% PPL degradation) to anti-layers (L14, L17) whose removal improves performance. (3) Recovery speed correlates with layer importance, indicating differential training requirements. (4) Only weight scaling (alpha = 0.9) preserves model quality among five tested manipulation strategies. (5) Growth Transformer Training, allocating budget by layer importance, achieves ~54% cost reduction. A proof-of-concept experiment confirms this: 4.7x lower validation loss than uniform training at identical parameter count, while being 13% faster.

研究动机与目标

通过消融后测量逐层对困惑度的影响，评估变换器层是否在功能上可互换。
量化跨层权重的可预测性并评估权重扰动的后果。
在扰动后的恢复动态进行表征，以推断各层的培训预算需求。
识别特殊的层现象（反层）并评估有效的权重操作策略。
提出并验证 Growth Transformer Training 作为基于经验层重要性的实际训练范式。

提出的方法

使用五种指标（包括消融劣化和恢复速度）构建全部30层的完整层重要性映射。
通过对压缩权重样本进行岭回归评估权重的可预测性，并分析 R^2 与功能劣化的关系。
通过相邻层的 delta 相关性和跨层的主成分分析来分析权重结构。
在冗余层上测试五种权重操作策略以评估对生成质量的保留。
进行一个含六个发展阶段的 Growth Transformer Training 的概念验证，以与均匀基线进行比较。

实验结果

研究问题

RQ1变压器层之间是否存在使训练预算差异化的功能层级？
RQ2能否在不实现功能互换的前提下从早期权重预测后期权重？
RQ3扰动后各层的恢复速度是否存在差异，指示不同的培训需求？
RQ4是否存在能通过扰动提升模型性能的反层？
RQ5Growth Transformer Training 是否能在损失、速度和效率方面优于均匀训练？

主要发现

Layer	Degradation (%)	Category	Functional Role
L0	0.0	Redundant	Embedding boundary
L1	+2,737.1	Critical	Input parser
L2	+186.0	Critical	Input parser
L3	+13.4	Redundant	Padding
L4	+22.7	Minor	Feature extraction
L5	+8.3	Redundant	Padding
L6	+9.4	Redundant	Padding
L7	+20.3	Minor	Feature extraction
L8	+2,395.6	Critical	Core reasoning
L9	+378.1	Critical	Core reasoning
L10	+9,870.7	Critical	Deep reasoning
L11	+63,419.2	Critical	Model brain
L12	+6.3	Redundant	Padding
L13	+24.4	Minor	Refinement
L14	+5.0	Redundant	Anti-layer*
L15	+11.1	Minor	Refinement
L16	+20.3	Minor	Refinement
L17	-0.6	Redundant	Anti-layer*
L18	+16.9	Minor	Refinement
L19	+2.6	Redundant	Padding
L20	+25.9	Minor	Refinement
L21	+23.5	Minor	Refinement
L22	+27.8	Minor	Refinement
L23	+66.6	Important	Output preparation
L24	+115.2	Critical	Output core
L25	+23.2	Minor	Output refinement
L26	+19.4	Minor	Output refinement
L27	+134.8	Critical	Output formatting
L28	+211.5	Critical	Output final
L29	0.0	Redundant	LN head boundary

层重要性覆盖范围很广，存在一个关键核心（L8–L11）和反层（L14, L17），扰动会降低或提高性能。
权重可预测性的 R^2 值较高（如 mlp.gate_proj 为 0.909），但预测权重替换会导致困惑度灾难性下降，原因是非线性误差累积。
层间权重变化呈现普遍的振荡模式，跨所有组件的 delta 相关性约为 -0.50，表明残差连接中的补偿机制。
在五种权重操作策略中，只有将冗余层的权重缩放到 0.9 能保持生成质量；其他策略会使困惑度爆炸。
Growth Transformer Training 是一个六阶段发展协议，在相同步数下比均匀训练实现了验证损失降低 4.7 倍，且在概念验证实验中速度快 13%，预算的一半时损失降低 2.1 倍。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。