Skip to main content
QUICK REVIEW

[論文レビュー] Implicit Regularization in Deep Learning

Behnam Neyshabur|arXiv (Cornell University)|Sep 6, 2017
Sparse and Compressive Sensing Techniques参考文献 57被引用数 77
ひとこと要約

本論文は、最適化に起因する暗黙の正則化とノルムベースの複雑さ指標が深層学習の一般化をどのように説明するかを調査し、ニューラルネットワークの挙動と整合させるための不変性とパスベースの正規化/最適化手法を提案する。

ABSTRACT

In an attempt to better understand generalization in deep learning, we study several possible explanations. We show that implicit regularization induced by the optimization method is playing a key role in generalization and success of deep learning models. Motivated by this view, we study how different complexity measures can ensure generalization and explain how optimization algorithms can implicitly regularize complexity measures. We empirically investigate the ability of these measures to explain different observed phenomena in deep learning. We further study the invariances in neural networks, suggest complexity measures and optimization algorithms that have similar invariances to those in neural networks and evaluate them on a number of learning tasks.

研究の動機と目的

  • 高容量にもかかわらず過パラメータ化されたニューラルネットワークがなぜ一般化するのかを調査する。
  • 最適化アルゴリズムが暗黙の正則化にどのように寄与するかを分析する。
  • ニューラルネットワークに適用可能なノルムベースの容量指標とPAC-Bayes境界を開発する。
  • ニューラルネットワークの挙動を反映する不変性とパスベースの指標/最適化を提案する。

提案手法

  • VC次元、ノルム、マージン、リプシッツ性、およびPAC-Bayesフレームワークを用いて一般化と容量制御を研究する。
  • ノルムが有界な全結合ネットワークに対する一般化境界を証明し、深さに依存しない場合を含む。
  • マージンベースの境界の枠組みを通じてシャープネスとPAC-Bayes一般化を結びつける。
  • ネットワークと訓練 regime にわたって複雑さ指標と一般化を経験的に評価する。
  • 不変性(例: 再スケーリング)とPath-normを指標として導入し、Path-SGDをPath-normに関する近似最急降下法として開発する。
  • Path-SGDとBatch Normalizationを組み合わせたデータ依存の正規化フレームワークを提示する。

実験結果

リサーチクエスチョン

  • RQ1最適化によって誘発される暗黙の正則化は深層学習の一般化にどのような影響を与えるか。
  • RQ2過パラメータ化されたネットワークの一般化を説明できる複雑さ指標(ノルム、マージン、リプシッツ特性)は何か。
  • RQ3シャープネスとマージンベースの解析との関連を通じて、PAC-Bayes境界は一般化を解明できるか。
  • RQ4再パラメータ化の下でニューラルネットワークに存在する不変性は何か、そしてそれらが最適化をどのように導くことができるか。
  • RQ5パスベースの指標とPath-SGDは標準的なSGDと比べて一般化を改善できるか。

主な発見

  • 最適化からの暗黙的正則化は深層学習の一般化において重要な役割を果たす。
  • ノルムベースの容量制御は、特定のノルムに対して深さに依存しない境界を満たす全結合ネットワークの境界を導出する。
  • シャープネスと組み合わせたPAC-Bayesフレームワークはニューラルネットワークに関連する一般化境界を提供する。
  • SGDで訓練されたネットワークは一般化に寄与するフラットな局所解の特性を示す。
  • Path-normの不変性はネットワークの再スケーリング対称性を捉え、Path-SGDはさまざまなベンチマークで一般化を改善する。
  • データ依存の正規化フレームワークはPath-SGDとBatch Normalizationを結びつけ、不変性・正則化・最適化を結びつける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。