QUICK REVIEW

[論文レビュー] Implicit Bias of Gradient Descent for Wide Two-layer Neural Networks Trained with the Logistic Loss

Lénaïc Chizat, Francis Bach|arXiv (Cornell University)|Feb 11, 2020

Stochastic Gradient Optimization Techniques被引用数 35

ひとこと要約

この論文は、指数尾を持つ損失で訓練された無限に広い2層ネットワークに対する勾配流の暗黙のバイアスを分析し、変動ノルム空間で最大マージン分類器への収束を示し、隠れた低次元構造の下で次元に依存しない一般化を強調することを示し、出力層の訓練と両方の層の訓練を対比し、数値実験で発見を裏付ける。

ABSTRACT

Neural networks trained to minimize the logistic (a.k.a. cross-entropy) loss with gradient-based methods are observed to perform well in many supervised classification tasks. Towards understanding this phenomenon, we analyze the training and generalization behavior of infinitely wide two-layer neural networks with homogeneous activations. We show that the limits of the gradient flow on exponentially tailed losses can be fully characterized as a max-margin classifier in a certain non-Hilbertian space of functions. In presence of hidden low-dimensional structures, the resulting margin is independent of the ambiant dimension, which leads to strong generalization bounds. In contrast, training only the output layer implicitly solves a kernel support vector machine, which a priori does not enjoy such an adaptivity. Our analysis of training is non-quantitative in terms of running time but we prove computational guarantees in simplified settings by showing equivalences with online mirror descent. Finally, numerical experiments suggest that our analysis describes well the practical behavior of two-layer neural networks with ReLU activation and confirm the statistical benefits of this implicit bias.

研究の動機と目的

過剰パラメータ化されたネットワークが勾配法で訓練されるとき、なぜよく一般化するのかの理解を動機づける。
2重項層ネットワークで2-同次活性化を持つ無限に広い limit での訓練ダイナミクスを特徴づける。
学習した分類器が関数ノルムでの凸最大マージン問題を解くことを示す。
両方の層を訓練する場合と出力層のみを訓練する場合の暗黙のバイアスを比較する。
低次元構造に依存する一般化境界を提供する（周囲次元ではなく低次元構造に依存する）。

提案手法

2層ネットワークを balanced な特徴関数 φ を用いて2-同次とみなし、極限 m→∞ を研究する。
予測子を測度 h(μ, x)=∫φ(w, x)dμ(w) で表現し、2-同次球 Π2(μ) に射影する。
2つの最大マージン概念を定義する：変動ノルム(F1)と RKHSノルム(F2)、これにより γ1 と γ2 のマージンを生じる。
滑らかなマージン目的関数 S(ĥ(μ)) の勾配流を分析し、それを確率測度上の Wasserstein 勾配流として解釈する。
適切な条件の下で、極限定方向 ν̄∞ は F1-最大マージン問題 Eq.(4) を解くことを証明する。
出力層のみを訓練する場合やニューロンの方向を固定する場合を含む特別なケースを議論し、収束の知見を提供する。

実験結果

リサーチクエスチョン

RQ1指数尾を持つ損失で訓練された無限に広い2層ネットワークにおける勾配流の暗黙のバイアスは何か？
RQ2学習ダイナミクスは関数ノルムでの最大マージン分類器へ収束するのか、そしてこれはパラメータ化によってどう左右されるのか？
RQ3出力層のみを訓練する、あるいはニューロンの方向を固定する場合、暗黙のバイアスと収束挙動にどう影響するのか？
RQ4仮定された低次元構造の存在下での暗黙の最大マージンが統計的な一般化に与える影響は何か？

主な発見

指数尾を持つ損失を用いた広い2層ネットワークの勾配流極限は、変動ノルム空間 F1 における最大マージン分類器を生み出す。
ニューロンの方向を固定する場合や出力層のみを訓練する場合、ダイナミクスは滑らかなマージン目的関数上のオンラインミラ―上昇として対応し、マージンを最大化する挙動を生む。
隠れた低次元構造が存在すると、マージン γ1 は高次元でも大きく保たれ、次元に依存しない一般化境界が得られる可能性がある。
二層 ReLU ネットワークでの経験的結果は、理論的な暗黙のバイアスの挙動と高次元での統計的利益を裏付ける。
両方の層を訓練すると非滑らかな F1-最大マージン分類器が得られ、出力層のみを訓練するとRKHS 的な滑らかな F2-最大マージン分類器が得られ、決定境界には異なる質的特徴が現れる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。