[論文レビュー] Theory II: Landscape of the Empirical Risk in Deep Learning
この論文は、過パラメータ化された深層畳み込みニューラルネットワーク(DCNN)の損失関数の形状を調査し、実験的リスク関数の表面が、トレーニング誤差がゼロである多数の退化したグローバル最小値から成ると提案している。ReLUの多項式近似とベズーの定理に基づく理論的分析により、このような最小値が非常に多数存在することを示している。CIFAR-10における多次元スケーリング(MDS)と摂動実験による実験的可視化では、SGDが小さな重み摂動に対しても平坦で頑健なグローバル最小値に収束することが確認され、損失関数の表面は一般的に考えられているほど複雑ではなく、局所的最小値が存在しない高次元で比較的規則的な谷の集合として構造化されていることが示唆される。
Previous theoretical work on deep learning and neural network optimization tend to focus on avoiding saddle points and local minima. However, the practical observation is that, at least in the case of the most successful Deep Convolutional Neural Networks (DCNNs), practitioners can always increase the network size to fit the training data (an extreme example would be [1]). The most successful DCNNs such as VGG and ResNets are best used with a degree of "overparametrization". In this work, we characterize with a mix of theory and experiments, the landscape of the empirical risk of overparametrized DCNNs. We first prove in the regression framework the existence of a large number of degenerate global minimizers with zero empirical error (modulo inconsistent equations). The argument that relies on the use of Bezout theorem is rigorous when the RELUs are replaced by a polynomial nonlinearity (which empirically works as well). As described in our Theory III [2] paper, the same minimizers are degenerate and thus very likely to be found by SGD that will furthermore select with higher probability the most robust zero-minimizer. We further experimentally explored and visualized the landscape of empirical risk of a DCNN on CIFAR-10 during the entire training process and especially the global minima. Finally, based on our theoretical and experimental results, we propose an intuitive model of the landscape of DCNN's empirical loss surface, which might not be as complicated as people commonly believe.
研究の動機と目的
- 過パラメータ化された深層ネットワークにおける経験的リスクの形状を理解すること、特にVGG や ResNets のような成功したDCNNの文脈において。
- 巨視的過パラメータ化にもかかわらず、確率的勾配降下法(SGD)がなぜうまく一般化するのかを調査すること。
- 損失関数の表面が多数の局所的最小値や停留点を含み、非常に複雑であるという一般的な信念に挑戦すること。
- 理論的および実験的証拠に基づいて、損失関数の形状の簡素化されたベースラインモデルを提案すること。
提案手法
- 理論的分析では、ReLUを多項式またはレジェンドル展開で近似する前提のもと、ベズーの定理を用いて回帰フレームワークにおいて非常に多数のゼロ誤差グローバル最小化子が存在することを証明する。
- 分類問題への拡張では、ゼロ誤差がマージンを意味することを示し、グローバル最小値の周囲に平坦な領域が存在することを示す。
- CIFAR-10におけるSGDトレーニング中の全トレーニング軌道および損失関数表面の進化を可視化するために、多次元スケーリング(MDS)が用いられる。
- 小さなガウスノイズをトレーニング済みのゼロ誤差モデルに加え、再トレーニングすることで、頑健性と収束経路を評価する摂動実験が実施される。
- モデル間および谷間の補間実験により、一般化性能と誤差の挙動を評価する。
- ノイズの役割が局所的最小値を避ける上で果たす役割を評価するために、SGDとバッチ勾配降下法のトレーニングダイナミクスを比較する。
実験結果
リサーチクエスチョン
- RQ1過パラメータ化されたDCNNには、何個のゼロ経験誤差を持つグローバル最小化子が存在し、それらは退化しているか?
- RQ2過パラメータ化されたDCNNの損失関数表面に局所的最小値は存在するのか、それとも平坦で広がったグローバル最小値の谷が支配的なのか?
- RQ3トレーニング中にトレーニング軌道および損失関数表面はどのように変化するのか、そしてSGDにおける確率性の役割は何か?
- RQ4トレーニング済みのゼロ誤差モデルに対して摂動を加えると、異なる収束経路が得られるか、かつゼロトレーニング誤差が保持されるか?
- RQ5損失関数の形状の単純さは何か?そして、それは高次元の谷の集合としてモデル化できるか?
主な発見
- 理論的分析により、ReLUの多項式近似のもとでベズーの定理を用いることで、過パラメータ化されたDCNNに非常に多数のゼロ経験誤差を持つ退化したグローバル最小化子が存在することが証明された。
- 同じゼロ誤差最小化子は非常に高い退化度を示し、SGDが頑健な解を好む傾向があるため、それらが見つけやすくなる。
- MDSを用いた実験的可視化により、異なる初期化からのトレーニング軌道が、すべてゼロ誤差の妥当な解に収束することが示された。
- 平均重みの大きさの0.01倍の小さなガウスノイズを適用したトレーニング済みゼロ誤差モデル(M_final)に対して摂動実験を実施したところ、トレーニング誤差に増加はなく、全モデルが400エポックのバッチ勾配降下法中でも0%のトレーニング誤差を維持した。
- 摂動後の重みの変化が著しかったにもかかわらず、すべての軌道が同じ損失谷内に留まり続けたため、損失関数表面が局所的最小値によって断片化されていないことが示された。
- バッチ勾配降下法でも局所的最小値は観測されず、損失関数表面が平坦で連結されたグローバル最小値の谷が支配的であることが示唆された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。