Skip to main content
QUICK REVIEW

[论文解读] Are All Layers Created Equal?

Chiyuan Zhang, Samy Bengio|arXiv (Cornell University)|Feb 6, 2019
Adversarial Robustness in Machine Learning参考文献 49被引用 110
一句话总结

该论文实证地表明深度网络的层次具有异质性:一些层对训练后重新初始化/重新随机化具有鲁棒性,而另一些层则至关重要,鲁棒性随架构与任务而异。

ABSTRACT

Understanding deep neural networks is a major research objective with notable experimental and theoretical attention in recent years. The practical success of excessively large networks underscores the need for better theoretical analyses and justifications. In this paper we focus on layer-wise functional structure and behavior in overparameterized deep models. To do so, we study empirically the layers' robustness to post-training re-initialization and re-randomization of the parameters. We provide experimental results which give evidence for the heterogeneity of layers. Morally, layers of large deep neural networks can be categorized as either "robust" or "critical". Resetting the robust layers to their initial values does not result in adverse decline in performance. In many cases, robust layers hardly change throughout training. In contrast, re-initializing critical layers vastly degrades the performance of the network with test error essentially dropping to random guesses. Our study provides further evidence that mere parameter counting or norm calculations are too coarse in studying generalization of deep models, and "flatness" and robustness analysis of trained models need to be examined while taking into account the respective network architectures.

研究动机与目标

  • 调查单个层在训练后的深度网络中是否发挥不同作用。
  • 评估跨架构和任务的单个层对训练后重初始化和重新随机化的鲁棒性。
  • 理解层的鲁棒性如何与网络容量、任务难度和泛化相关。

提出的方法

  • 在MNIST、CIFAR-10、ImageNet和LM1B上训练各种架构(全连接网络FCN、VGG、ResNet、 transformers、ViTs、MLP-Mixers)。
  • 训练后,对各个层进行重初始化或重新随机化,并测量测试集/困惑度性能。
  • 使用检查点将层重新初始化为初始值,或从初始化分布重新采样,而无需重新训练。
  • 用2范数和无穷范数分析层相对于初始值的权重距离。
  • 通过对一组层进行重初始化/重随机化来分析联合鲁棒性,并测试影响。

实验结果

研究问题

  • RQ1深度网络中的层是否具有异质角色,既鲁棒又对性能敏感?
  • RQ2层鲁棒性在不同架构(FCN、VGG、ResNet、Transformer)和数据集(MNIST、CIFAR-10、ImageNet、LM1B)中如何变化?
  • RQ3层的鲁棒性属性是否能解释泛化和过参数化的影响?
  • RQ4对网络性能的联合层扰动有何影响,冻结或移除层等约束能否减轻损失?
  • RQ5在视觉模型中观察到的鲁棒性模式是否可推广到卷积自由的架构(ViTs、MLP-Mixers)和语言模型?

主要发现

  • 重新随机化任意一层通常会使性能崩溃至随机猜测,表明该层不具鲁棒性。
  • 对底层层进行重初始化往往最具破坏性,而较高层通常对重初始化保持鲁棒。
  • 层的鲁棒性与网络容量和任务难度相关:更宽的网络往往顶层更鲁棒,任务更难时保留更多层为敏感。
  • ResNet 将关键层分布在深度的各处,与 FCN/VGG 不同,底层更关键。
  • 一组层可以联合地鲁棒或脆弱,架构约束(冻结/移除层)会影响观察到的鲁棒性。
  • 鲁棒性模式可推广到语言模型和卷积自由的架构(ViTs、MLP-Mixers),顶层往往更鲁棒,尽管具体取决于组件(如变换器中的层归一化 LayerNorm)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。