QUICK REVIEW

[論文レビュー] Training behavior of deep neural network in frequency domain

Zhi‐Qin John Xu, Yaoyu Zhang|arXiv (Cornell University)|Jul 3, 2018

Neural Networks and Applications参考文献 29被引用数 49

ひとこと要約

DNN のトレーニングは Frequency Principle（周波数原理）に従う：モデルはまず支配的な低周波数成分を捉え、次に高周波数成分を徐々に適合させる。データセット・アーキテクチャ・オプティマイザを問わず、一般化と早期停止への洞察を提供する。

ABSTRACT

Why deep neural networks (DNNs) capable of overfitting often generalize well in practice is a mystery [#zhang2016understanding]. To find a potential mechanism, we focus on the study of implicit biases underlying the training process of DNNs. In this work, for both real and synthetic datasets, we empirically find that a DNN with common settings first quickly captures the dominant low-frequency components, and then relatively slowly captures the high-frequency ones. We call this phenomenon Frequency Principle (F-Principle). The F-Principle can be observed over DNNs of various structures, activation functions, and training algorithms in our experiments. We also illustrate how the F-Principle help understand the effect of early-stopping as well as the generalization of DNNs. This F-Principle potentially provides insights into a general principle underlying DNN optimization and generalization.

研究の動機と目的

過剰パラメータ化された DNN が過剰適合の可能性にもかかわらずなぜ十分に一般化できるのかを理解する動機づけ。
合成データと実データに対して、周波数領域での DNN の訓練ダイナミクスを特徴づける。
一般化と早期停止の有効性を説明する最適化のバイアスを特定する。
アーキテクチャや活性化関数を横断して Frequency Principle の一貫性を示す。

提案手法

1-D 関数と実データセット（MNIST、CIFAR-10）を用いて周波数領域で DNN の訓練を分析する。
入力の第1主成分に沿ってフーリエ変換を計算し、周波数成分を調べる。
訓練中に選択した周波数成分の相対収束を追跡する。
異なるネットワークアーキテクチャ（全結合 tanh、CNN）およびオプティマイザ（SGD、Adam）を用いて実験する。
ガウス初期化と Adam オプティマイザを用いて平均二乗誤差損失を使用し、ダイナミクスを比較する。

実験結果

リサーチクエスチョン

RQ1Frequency Principle が DNN がデータから学習する方法を支配しているか、そしてそうならデータセットやネットワークタイプを超えて観察可能か。
RQ2周波数成分の適合の順序が一般化と早期停止にどのように関連するか。
RQ3初期化とアーキテクチャが Frequency Principle の出現にどのような役割を果たすか。

主な発見

DNN は訓練の最初に支配的な低周波数成分を学習し、後で高周波数成分を学習する傾向がある。
Frequency Principle は、幅や深さが異なるネットワークや、異なる活性化関数・オプティマイザに対しても観察される。
早期停止は高周波ノイズの適合を防ぎ、ノイズが多い設定で一般化を改善できる。
小さな初期化は Frequency Principle の下でより良い一般化を促進する傾向があり、逆に大きな初期化は過剤合につながる可能性がある。
この原理は、最適化ダイナミクスと DNN の一般化挙動を結びつけるもっともらしい機構を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。