Skip to main content
QUICK REVIEW

[論文レビュー] Sharp Minima Can Generalize For Deep Nets

Laurent Dinh, Razvan Pascanu|arXiv (Cornell University)|Mar 15, 2017
Stochastic Gradient Optimization Techniques参考文献 51被引用数 148
ひとこと要約

本論文は、ミニマの平坦性/鋭さの従来の概念が、非一意性と再パラメトリゼーションのために、深層ネットの一般化を説明するには不十分であると主張する。等価なモデルが任意に鋭くも平らにも見えることを示し、平坦なミニマに基づく説明に挑戦する。

ABSTRACT

Despite their overwhelming capacity to overfit, deep learning architectures tend to generalize relatively well to unseen data, allowing them to be deployed in practice. However, explaining why this is the case is still an open area of research. One standing hypothesis that is gaining popularity, e.g. Hochreiter & Schmidhuber (1997); Keskar et al. (2017), is that the flatness of minima of the loss function found by stochastic gradient based methods results in good generalization. This paper argues that most notions of flatness are problematic for deep models and can not be directly applied to explain generalization. Specifically, when focusing on deep networks with rectifier units, we can exploit the particular geometry of parameter space induced by the inherent symmetries that these architectures exhibit to build equivalent models corresponding to arbitrarily sharper minima. Furthermore, if we allow to reparametrize a function, the geometry of its parameters can change drastically without affecting its generalization properties.

研究の動機と目的

  • 深い整流ネットワークにおける一般化の平坦性ベースの説明の妥当性を評価する。
  • パラメータ空間の幾何と観測上の同等性が平坦度の測度に与える影響を示す。
  • 再パラメトリゼーションが一般化を変えずに知覚される鋭さを劇的に変えることを示す。

提案手法

  • 体積ベース、ヘシアン基づき、ε-鋭さなど、複数の平坦性/鋭さの指標を定義し比較する。
  • 非負同次性とαスケール変換によって整流ネットワークにおける非同一性を暴露する。
  • αスケール変換が、予測を変えずにミニマの周囲に無限に大きな平坦領域や任意に大きいヘシアンスペクトルを生み出すことを証明する。
  • 多層ネットワークへの変換を一般化し、D_αを介してヘシアン固有値への影響を導く。

実験結果

リサーチクエスチョン

  • RQ1標準的な平坦性の概念は、深い整流ネットワークの一般化を信頼性高く予測できるか。
  • RQ2観測上等価なパラメータ化は、一般的な指標の下で任意に鋭いまたは平らなミニマを生み得るか。
  • RQ3再パラメトリゼーションは、ミニマの幾何と一般化の関係にどう影響するか。
  • RQ4深層ネットでヘシアンベースの指標を一般化の代理指標として用いる際の限界は何か。

主な発見

  • 体積ベースのε-平坦性は、典型的な1層の整流ネット周辺で無限大になることがあり、その指標の下ではすべてのミニマが等しく平坦に見える。
  • スペクトルノルムやトレースのようなヘシアンベースの測度は、関数を変えずにαスケール変換によって任意に操作できる。
  • 観測上等価なミニマが任意に大きなヘシアン固有値を持つことがあり、鋭さと一般化の結びつきに挑戦する。
  • より深いネットワークでは、ヘシアン固有値の一部をパラメータスケーリングで大きくでき、一般化に影響を与えず鋭い方向が存在し得ることを示す。
  • 重み正規化やバッチ正規化の変種を含む再パラメトリゼーションは、ミニマの知覚的な幾何を変えることができ、一般化を影響を及ぼさない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。