QUICK REVIEW

[論文レビュー] Lexicographic and Depth-Sensitive Margins in Homogeneous and Non-Homogeneous Deep Models

Mor Shpigel Nacson, Suriya Gunasekar|arXiv (Cornell University)|May 17, 2019

Stochastic Gradient Optimization Techniques参考文献 20被引用数 25

ひとこと要約

この論文は、制約付き、正則化、最適化の各経路を分析することで、同次および非同次な深層モデルへのマージン最大化理論の拡張を試みる。同次モデルでは、制約付き経路が辞書的最マージン解に収束することを証明する。一方、非同次のアンサンブルでは、浅いサブモデルが無視され、過パラメータ化されたネットワークにおける深さに敏感なインダクティブバイアスが明らかになる。

ABSTRACT

With an eye toward understanding complexity control in deep learning, we study how infinitesimal regularization or gradient descent optimization lead to margin maximizing solutions in both homogeneous and non-homogeneous models, extending previous work that focused on infinitesimal regularization only in homogeneous models. To this end we study the limit of loss minimization with a diverging norm constraint (the "constrained path"), relate it to the limit of a "margin path" and characterize the resulting solution. For non-homogeneous ensemble models, which output is a sum of homogeneous sub-models, we show that this solution discards the shallowest sub-models if they are unnecessary. For homogeneous models, we show convergence to a "lexicographic max-margin solution", and provide conditions under which max-margin solutions are also attained as the limit of unconstrained gradient descent.

研究の動機と目的

過パラメータ化された深層ニューラルネットワークにおける最適化と正則化が導入するインダクティブバイアスを理解すること。
線形および同次モデルに限られていたマックスマージン解の先行研究を、特にアンサンブルアーキテクチャを含む非同次モデルへと拡張すること。
発散するノルム制約における制約付き経路の極限を特定し、それが同次および非同次モデルにおけるマージン最大化とどのように関係するかを同定すること。
非同次モデルにおける非制約付き勾配降下がマックスマージン解に収束するか、またその条件を調査すること。
標準のマックスマージン分類器の改良としての「辞書的最マージン解」という概念を導入し、形式化すること。

提案手法

発散するノルム制約下での最適化（制約付き経路）を、無限小の正則化の代理として分析する。
k番目の最小マージンを繰り返し最大化することで、辞書的最マージン集合を定式化し、標準のマックスマージン解を精緻化する。
α-正の同次モデルに対して、制約付き経路の極限が辞書的最マージン集合に含まれることを証明する。
同次サブモデルの和で構成される非同次モデル（例：ニューラルネットワークアンサンブル）にフレームワークを適用する。
このようなアンサンブルにおいて、データの適合に不要な浅いサブモデルが、制約付き経路の解で無視されることを示す。
制約付き経路、マージン経路、非制約最適化経路の関係を確立し、制約付き経路の停留点に収束することを示す。

実験結果

リサーチクエスチョン

RQ1発散するノルム制約を伴う制約付き経路は、非同次な深層モデルにおけるマージン最大化とどのように関係するか？
RQ2非同次モデルにおける非制約付き勾配降下が誘導するインダクティブバイアスは何か？また、それがマックスマージン解に収束するのか？
RQ3マックスマージンの概念は、最初の最小マージンを越えて精緻化可能か？もしそうなら、その精緻化はモデルの一般化にどのように影響するか？
RQ4同次サブモデルの和で構成されるアンサンブルモデルでは、制約付き最適化下でどのように振る舞うか？また、深さの異なるコンponentsのどちらが優遇されるか？
RQ5最適化経路が制約付き経路またはマージン経路と同じ解に収束する条件は何か？

主な発見

α-正の同次モデルでは、制約付き経路の極限が辞書的最マージン集合に含まれており、これは最小マージンを最大化し、次に第二小、以降同様に順次最大化することを意味する。
同次サブモデルの和で構成される非同次モデルでは、データ適合に不要な浅いサブモデルが、制約付き経路の解で無視される。
制約付き経路は最大マージンの解に収束し、一部の状況ではパラメータ経路自体が最大マージン解集合に収束する。
最適化経路（非制約勾配降下）は、制約付き経路の停留点に収束するため、最適化ダイナミクスとマージン最大化の強い関連性が示唆される。
辞書的最マージン集合は、特に同次モデルにおいて、標準のマックスマージン分類器を越えた最適解の特徴づけを可能にする。
結果から、深さとパラメータ化が過パラメータ化モデルにおけるインダクティブバイアスに影響すること、特にアンサンブルアーキテクチャではより深いコンponentsが優遇されることを示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。