[論文レビュー] Neural Networks are Convex Regularizers: Exact Polynomial-time Convex Optimization Formulations for Two-layer Networks
本稿では、重み減衰を伴う2層ReLUニューラルネットワークの訓練に対する、初めての正確で多項式時間の凸最適化定式化を提示する。非凸問題が有限次元空間におけるブロック$β$-ノルム正則化凸計画問題と等価であることを示し、その鍵となる貢献は、強い双対性を確立する画期的な双対理論である。この理論により、凸ソルバーによるグローバル最適化が可能となり、ReLUネットワークが$β$-ノルムおよび$Ø∞$-ノルム正則化を通じて凸正則化子として機能することが明らかになる。
We develop exact representations of training two-layer neural networks with rectified linear units (ReLUs) in terms of a single convex program with number of variables polynomial in the number of training samples and the number of hidden neurons. Our theory utilizes semi-infinite duality and minimum norm regularization. We show that ReLU networks trained with standard weight decay are equivalent to block $\\ell_1$ penalized convex models. Moreover, we show that certain standard convolutional linear networks are equivalent semi-definite programs which can be simplified to $\\ell_1$ regularized linear models in a polynomial sized discrete Fourier feature space.
研究の動機と目的
- 2層ReLUネットワークの非凸訓練問題を正確に解く有限次元で多項式時間の凸計画問題を構築すること。
- 非凸ReLUネットワーク訓練問題と凸半無限計画問題との間で強い双対性を確立し、グローバル最適化を可能にすること。
- ReLUネットワークと重み減衰が誘発する暗黙の正則化を、より高い次元の特徴空間におけるブロック$β$-ノルムおよび$Ø∞$-ノルム正則化として同定すること。
- 理論を畳み込み線形ネットワークに拡張し、離散フーリエ特徴空間における$β$-正則化モデルと等価であることを示すこと。
提案手法
- 半無限双対性と最小ノルム正則化を用いて、非凸ReLUネットワーク訓練目的関数の凸双対定式化を導出する。
- 元の非凸最適化問題を、正規化された隠れユニット重みと出力重みの$β$ペナルティ付き凸計画問題に置き換える。
- 隠れニューロン数$m$が$m \geq m^*$を満たす場合($m^* \leq n$)に、双対ギャップが消えることを証明することで、強い双対性を確立する。
- 双対問題が、$\mathbb{R}^d$内すべての単位ベクトルによってインデックス付けられる制約を持つ凸半無限計画問題であることを示し、整流された楕円体集合の極集合を用いて再定式化可能であることを示す。
- 重み減衰を伴うReLUネットワークが、データ行列$X$から導かれる有限次元特徴空間におけるブロック$β$-ノルム正則化モデルと数学的に等価であることを証明する。
- 変数変換と符号パターンサンプリングを用いて、畳み込み線形ネットワークに対しても、離散フーリエ特徴空間における$β$-正則化モデルと等価であることを示す。
実験結果
リサーチクエスチョン
- RQ12層ReLUネットワークの非凸訓練問題は、変数および制約の数が多項式的に増加する凸最適化問題に正確に再定式化可能か?
- RQ2ReLUネットワークに重み減衰を適用した場合に生じる暗黙の正則化は何か? そして、既知の凸正則化子とどのように関係するか?
- RQ3非凸ReLUネットワーク目的関数とその凸双対定式化との間に強い双対性が成立するか?
- RQ4この理論は畳み込みネットワークなどの構造化アーキテクチャに拡張可能か? もし可能であれば、どのような凸再定式化が得られるか?
- RQ5提案された凸定式化は、SGDなどの標準的な訓練ヒューリスティクスと比較して、一般化性能および目的関数値の点でどのように異なるか?
主な発見
- 重み減衰を伴う2層ReLUネットワークの訓練問題は、$n$個の変数と無限個の制約を持つ凸半無限計画問題と等価であり、これは多項式的に多くの変数および制約を有する有限次元凸計画問題に再定式化可能である。
- 隠れニューロン数$m$が$m \geq m^*$($m^* \leq n$)を満たす限り、非凸ReLUネットワーク目的関数とその凸双対問題との間に強い双対性が成立し、グローバル最適性が保証される。
- 重み減衰を伴うReLUネットワークは、データ行列$X$から導かれる有限次元特徴空間におけるブロック$β$-ノルム正則化モデルと数学的に等価であり、この特徴空間は入力方向のすべての可能な整流線形結合に対応する。
- 双対問題が整流された楕円体集合の極集合上での凸関数の最小化と等価であることが示され、符号パターンのサンプリングにより効率的な計算が可能になる。
- 畳み込み線形ネットワークの場合、凸再定式化は離散フーリエ特徴空間における$β$-正則化線形モデルに簡略化され、特徴数は$n$および$d$に関して多項式的になる。
- 実験結果から、提案された凸プログラム(L1-Convex)はSGDやヒューリスティックな変種よりも低い目的関数値と高いテスト精度を達成しており、すべてのSGDの実現が凸プログラムと同じ解に収束することが確認された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。