QUICK REVIEW

[論文レビュー] Are All Layers Created Equal?

Chiyuan Zhang, Samy Bengio|arXiv (Cornell University)|Feb 6, 2019

Adversarial Robustness in Machine Learning参考文献 49被引用数 110

ひとこと要約

この論文は経験的に深層ネットワークの層が異質であることを示す：いくつかは訓練後の再初期化/再ランダム化に対して頑健だが、他は臨界であり、頑健性はアーキテクチャとタスクによって異なる。

ABSTRACT

Understanding deep neural networks is a major research objective with notable experimental and theoretical attention in recent years. The practical success of excessively large networks underscores the need for better theoretical analyses and justifications. In this paper we focus on layer-wise functional structure and behavior in overparameterized deep models. To do so, we study empirically the layers' robustness to post-training re-initialization and re-randomization of the parameters. We provide experimental results which give evidence for the heterogeneity of layers. Morally, layers of large deep neural networks can be categorized as either "robust" or "critical". Resetting the robust layers to their initial values does not result in adverse decline in performance. In many cases, robust layers hardly change throughout training. In contrast, re-initializing critical layers vastly degrades the performance of the network with test error essentially dropping to random guesses. Our study provides further evidence that mere parameter counting or norm calculations are too coarse in studying generalization of deep models, and "flatness" and robustness analysis of trained models need to be examined while taking into account the respective network architectures.

研究の動機と目的

訓練された深層ネットワークにおいて、個々の層が異なる役割を果たしているかを調査する。
アーキテクチャとタスクに跨る層の再初期化・再ランダム化後の頑健性を評価する。
層の頑健性がネットワーク容量、タスクの難易度、一般化とどのように関連するかを理解する。

提案手法

FCN、VGG、ResNet、トランスフォーマー、ViT、MLP-MixerなどのさまざまなアーキテクチャをMNIST、CIFAR-10、ImageNet、LM1Bで訓練する。
訓練後、個々の層を再初期化または再ランダム化して、テスト性能/テストパープレキシティを測定する。
チェックポイントを用いて層を初期値へ再初期化するか、初期化分布から再サンプルして再訓練なしで行う。
2ノルムおよび無限大ノルムを用いて初期値への層ごとの重み距離を分析する。
層のグループを再初期化/再ランダム化して共同頑健性を検討し、影響を評価する。

実験結果

リサーチクエスチョン

RQ1深層ネットワーク内の層は、性能に対して頑健または臨界であるという異質な役割を持つのか。
RQ2層の頑健性はアーキテクチャ（FCN、VGG、ResNet、トランスフォーマー）およびデータセット（MNIST、CIFAR-10、ImageNet、LM1B）全体でどのように変化するか。
RQ3層の頑健性特性は一般化と過parameter化の影響を説明できるか。
RQ4層の共同的な摂動がネットワーク性能に与える影響はどの程度か、凍結や層の削除などの制約が損失を緩和できるか。
RQ5視覚モデルで観察される頑健性パターンは、畳み込みを用いないアーキテクチャ（ViT、MLP-Mixers）および言語モデルにも一般化するか。

主な発見

任意の層を再ランダム化すると、通常は性能がランダム推測へと崩れる。つまりその層は頑健でないことを示す。
最下位層の再初期化は最も有害である傾向があり、上位層は再初期化に対してしばしば頑健である。
層の頑健性はネットワーク容量とタスクの難易度と相関する：幅広いネットワークは上位層の頑健性が高くなる傾向があり、難しいタスクはより多くの層を敏感に保つ。
ResNetは深さ全体に臨界層を分散させるが、FCN/VGGでは下層がより臨界である。
層のグループは共同で頑健または脆弱になることがあり、アーキテクチュアルな制約（層の凍結/削除）は観察される頑健性に影響する。
頑健性パターンは言語モデルや畳み込みのないアーキテクチャ（ViT、MLP-Mixers）にも一般化し、上位層ほど頑健であることが多いが、詳細は構成要素（例：トランスフォーマーのLayerNorm）によって異なる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。