Skip to main content
QUICK REVIEW

[論文レビュー] A Mean-field Analysis of Deep ResNet and Beyond: Towards Provable Optimization Via Overparameterization From Depth

Yiping Lu, Chao Ma|arXiv (Cornell University)|Mar 11, 2020
Stochastic Gradient Optimization Techniques参考文献 48被引用数 26
ひとこと要約

本稿では、各残差ブロックを分布上の粒子とみなすことにより、深層残差ネットワーク(ResNets)の新たな平均場ODEモデルを提案する。このモデルにより、凸性の仮定なしにグローバル収束保証が可能となる。平均場極限において、すべての局所最適解がゼロ損失をとることを示し、深さによるオーバーパrameterizationによって、平均場領域における多層ネットワークに対する初めてのグローバル収束結果を確立する。

ABSTRACT

Training deep neural networks with stochastic gradient descent (SGD) can often achieve zero training loss on real-world tasks although the optimization landscape is known to be highly non-convex. To understand the success of SGD for training deep neural networks, this work presents a mean-field analysis of deep residual networks, based on a line of works that interpret the continuum limit of the deep residual network as an ordinary differential equation when the network capacity tends to infinity. Specifically, we propose a new continuum limit of deep residual networks, which enjoys a good landscape in the sense that every local minimizer is global. This characterization enables us to derive the first global convergence result for multilayer neural networks in the mean-field regime. Furthermore, without assuming the convexity of the loss landscape, our proof relies on a zero-loss assumption at the global minimizer that can be achieved when the model shares a universal approximation property. Key to our result is the observation that a deep residual network resembles a shallow network ensemble, i.e. a two-layer network. We bound the difference between the shallow network and our ResNet model via the adjoint sensitivity method, which enables us to apply existing mean-field analyses of two-layer networks to deep networks. Furthermore, we propose several novel training schemes based on the new continuous model, including one training procedure that switches the order of the residual blocks and results in strong empirical performance on the benchmark datasets.

研究の動機と目的

  • SGDによる深層ResNetsの実験的成功と、非凸かつオーバーパラメータ化された設定におけるグローバル収束保証の欠如との間の理論的ギャップを埋めること。
  • 残差ブロックパラメータの分布上での勾配フローを記述する、連続的で平均場的なODEモデルを構築し、学習ダイナミクスを捉えること。
  • 非凸性が存在しても、平均場極限におけるすべての局所最適解がゼロ損失のグローバル最適解に対応することを確立すること。
  • 深層ResNetsと2層のオーバーパラメータ化されたネットワークアンサンブルとの等価性を活用し、新たな学習手法を可能とすること。
  • 『ラージ』またはカーネル領域とは異なる枠組みで、深層ネットワークにおける最適化の理論的基盤を提供すること。

提案手法

  • 深層ResNetsの新たな連続極限として、平均場ODEを形式化する:$\dot{X}_{\rho}(x,t) = \int_{\theta} f(X_{\rho}(x,t), \theta) \rho(\theta,t) d\theta$。ここで、$\rho(\theta,t)$ は深さにわたる残差ブロックパラメータの分布を表す。
  • アドジョイント感度法を用いて、深層ResNetsの勾配と2層のオーバーパラメータ化されたネットワークの勾配との差を評価し、両者の損失が同等である場合に勾配が一定要因内で近接することを示す。
  • 2層ネットワークの既存の平均場解析を活用し、収束保証を深層ResNetsモデルに転送する。
  • 残差ブロックの順序を並び替えることで、追加コストなしに性能を向上させる、新たな学習手法を提案する。
  • 平均場モデルにおけるWasserstein勾配フローの、完全なサポートを持つ定常点が、凸性の仮定がなくてもグローバル最適解であることを確立する。
  • グローバル最適解におけるゼロ損失の仮定を用いる。これは、モデルの普遍近似性の性質によって成立する。

実験結果

リサーチクエスチョン

  • RQ1非凸性を仮定せず、損失のランドスケープがグローバル収束を保証するような、深層ResNetsの平均場ODEモデルを構築できるか?
  • RQ2深層ResNetsの勾配と2層のオーバーパラメータ化されたネットワークの勾配はどのように関係し、この関係性がグローバル収束保証を可能にするか?
  • RQ3『ラージ』またはカーネル領域に依存せずに、深さによるオーバーパラメータ化のみで、深層ネットワークの良い最適化ランドスケープが得られるか?
  • RQ4平均場モデルから、ベンチマークデータセットにおける実験的性能を向上させる新たな学習手順を導出できるか?
  • RQ5残差ブロックパラメータの分布が、深層ResNetsのグローバル最適性に果たす役割は何か?

主な発見

  • 提案された深層ResNetsの平均場ODEモデルは、すべての局所最適解がゼロ損失をとることを保証しており、与えられた連続極限においてすべての局所最適解がグローバル最適解であることを示唆する。
  • 両者の損失が同等である場合、深層ResNetsの勾配は2層のオーバーパラメータ化されたネットワークの勾配の定数倍の範囲に収まることが保証され、収束保証の転送が可能になる。
  • 非凸性の仮定なしに、平均場領域における多層ニューラルネットワークに対する初めてのグローバル収束結果を確立した。
  • CIFAR-10およびCIFAR-100における実験結果から、提案された平均場学習手法が、標準的なSGDを常に上回ることが示された。ResNetおよびResNeXtアーキテクチャにおいて、テスト精度が0.25%から0.55%まで向上した。
  • 残差ブロックの順序を再配置する新しい学習手法は、追加計算コストなしにより優れた実験的性能を達成しており、構造的再配置が最適化を向上させられることを示唆している。
  • 解析により、深層ResNetsが浅いネットワークのアンサンブルとして振る舞うことが明らかになった。これは、高い非凸性にもかかわらず、良好な最適化特性を示す理由を説明する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。