[论文解读] Traditional and Heavy-Tailed Self Regularization in Neural Network Models
该论文 使用 Random Matrix Theory 来 表明 DNN 的 权重矩阵 展现 出 隐式 自正则化,揭示 了 一个 5+1 相位 分类(以及 一个 Heavy-Tailed 变体)的 训练,受到 批量大小 和 其他 训练 参数 的 影响。
Random Matrix Theory (RMT) is applied to analyze the weight matrices of Deep Neural Networks (DNNs), including both production quality, pre-trained models such as AlexNet and Inception, and smaller models trained from scratch, such as LeNet5 and a miniature-AlexNet. Empirical and theoretical results clearly indicate that the empirical spectral density (ESD) of DNN layer matrices displays signatures of traditionally-regularized statistical models, even in the absence of exogenously specifying traditional forms of regularization, such as Dropout or Weight Norm constraints. Building on recent results in RMT, most notably its extension to Universality classes of Heavy-Tailed matrices, we develop a theory to identify \emph{5+1 Phases of Training}, corresponding to increasing amounts of \emph{Implicit Self-Regularization}. For smaller and/or older DNNs, this Implicit Self-Regularization is like traditional Tikhonov regularization, in that there is a `size scale' separating signal from noise. For state-of-the-art DNNs, however, we identify a novel form of \emph{Heavy-Tailed Self-Regularization}, similar to the self-organization seen in the statistical physics of disordered systems. This implicit Self-Regularization can depend strongly on the many knobs of the training process. By exploiting the generalization gap phenomena, we demonstrate that we can cause a small model to exhibit all 5+1 phases of training simply by changing the batch size.
研究动机与目标
- 研究 深度学习 中 的 正则化 为何 与 传统 ML 的 正则化 行为 不同。
- 基于 权重矩阵 的 谱 属性,提出 自正则化 理论。
- 描述 训练 参数,尤其 是 batch size,如何 影响 隐式 正则化 的 体系。
- 提供 一个 实用 框架,用于 监控 和 控制 深度网络 的 能量景观。
提出的方法
- 将权重矩阵建模为 W ≈ W_rand + Δsig,以 将 噪声 与 信号 分离。
- 应用 Marchenko-Pastur (MP) 理论 和 heavy-tailed MP 扩展 来 分析 实证谱密度 (ESDs)。
- 识别 普遍性 类 (Gaussian、Spiked-Covariance、和 Heavy-Tailed) 用于 对 ESDs 进行 分类。
- 将 MP Soft Rank 定义为 λ+ / λmax,以 量化 信号 相对于 噪声 的 强度。
- 开发 一个 5+1 Training 阶段 的 可视 分类法(Random-like、Bleeding-out、Bulk+Spikes、Bulk-decay、Heavy-Tailed、Rank-collapse)。
- 通过 在 MiniAlexNet 上 改变 training knobs(尤其 是 batch size)来 演示 相位 转换。
实验结果
研究问题
- RQ1在 DNN 权重矩阵 中,哪些 谱 特征 指示 隐式 自正则化?
- RQ2MP 理论 与 Heavy-Tailed 普遍性 类 如何 描述 从 随机 类 到 严重 正则化 的 转变?
- RQ3通过 调整 batch size 等 训练 knobs,小 模型 是否 能 呈现 出 所有 5+1 个 训练 相?
- RQ4显式 正则化 与 观察 到的 谱 相 之间 存在 怎样 的 关系?
- RQ5重尾 自正则化 是否 能 在 从 LeNet5 到 Inception/AlexNet 的 架构 跨 领域 泛化?
主要发现
- 较老/较小 的 模型 显示 MP-like 谱,具有 与 隐式 Tikhonov-like 正则化 相一致 的 低秩 峰值。
- 现代 大型 DNN 显示 Heavy-Tailed 谱密度,表明 强相关性 与 Heavy-Tailed Self-Regularization。
- 一个 5+1 的 训练 阶段 可视 分类法,可以 描述 权重 谱 从 random-like 演变 到 rank-collapse 的 过程。
- 当 自正则化 加强 时,MP Soft Rank 下降,表明 随机性 行为 减弱。
- 批量大小 调整 能 使 单个 模型 出现 所有 5+1 阶段,体现 Generalization Gap 因素。
- 显式 正则化 进一步 移动 峰值 并 降低 谱 复杂度,与 理论 相符。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。