QUICK REVIEW

[論文レビュー] How Much Over-parameterization Is Sufficient to Learn Deep ReLU Networks?

Zixiang Chen, Yuan Cao|arXiv (Cornell University)|Nov 27, 2019

Stochastic Gradient Optimization Techniques参考文献 65被引用数 29

ひとこと要約

本稿では、多項対数的過パラメータ化——具体的には、サンプルサイズ $ n $ および逆誤差 $ \/epsilon^{-1} $ の多項対数関数として増加するネットワーク幅——が、勾配降下法による深層ReLUネットワークのトレーニングにおいて、グローバル収束および一般化を達成するのに十分であることを確立している。著者らはNTRF関数クラスにおいて、緩い線形近似誤差条件を導入し、二層ネットワークの最先端結果に一致する、より鋭い収束および一般化バウンドを可能にした。

ABSTRACT

A recent line of research on deep learning focuses on the extremely over-parameterized setting, and shows that when the network width is larger than a high degree polynomial of the training sample size $n$ and the inverse of the target error $ε^{-1}$, deep neural networks learned by (stochastic) gradient descent enjoy nice optimization and generalization guarantees. Very recently, it is shown that under certain margin assumptions on the training data, a polylogarithmic width condition suffices for two-layer ReLU networks to converge and generalize (Ji and Telgarsky, 2019). However, whether deep neural networks can be learned with such a mild over-parameterization is still an open question. In this work, we answer this question affirmatively and establish sharper learning guarantees for deep ReLU networks trained by (stochastic) gradient descent. In specific, under certain assumptions made in previous work, our optimization and generalization guarantees hold with network width polylogarithmic in $n$ and $ε^{-1}$. Our results push the study of over-parameterized deep neural networks towards more practical settings.

研究の動機と目的

近年の二層ネットワークに関する結果に類似した、深層ReLUネットワークが多項対数的過パラメータ化のもとでトレーニング可能かどうかという未解決の問題を解消すること。
従来の研究よりも緩い過パラメータ化条件下で、深層ネットワークの一般化および最適化保証を改善すること。
初期化における線形化と真のネットワークの間の近似誤差を、完全に正確な近似を要求するのではなく、定数に留めるという条件を許容することで、NTRF関数クラスフレームワークを深層ネットワークへ拡張すること。
深層ネットワーク設定におけるGDおよびSGDの、より鋭いサンプル複雑度バウンドを確立すること。これは、二層ネットワークの最良知見に一致する。
部分的データ分離性の状況に一般化理論的結果を拡張し、良好に分離されたデータの大部分が存在する場合、最小限の過パラメータ化で効率的な学習が可能であることを示すこと。

提案手法

ネットワーク初期重みから導出されるランダム特徴量の線形結合として関数を特徴付けるNTRF（Neural Tangent Random Feature）関数クラスに基づく、新規の理論的フレームワークを提案する。
初期化における線形化と真のネットワークとの間の近似誤差を、高精度近似を要求するのではなく、定数に留めるという緩い条件を導入する。
この緩い条件の下で勾配降下法（GD）および確率的勾配降下法（SGD）を分析し、十分に広いネットワークでは、ゼロトレーニング誤差へのグローバル収束を証明する。
ラデマッハ複雑度を用いて一般化バウンドを導出し、幅 $ m $ が増加するにつれて統計的誤差が減少することを示す。これは $ m \in \widetilde{\Omega}(1) $ の範囲でも成立し、従来のNTKベースの解析で一般的に要求される $ m \gg n $ の条件を緩和する。
GDのサンプル複雑度バウンドを $ \widetilde{\mathcal{O}}(\epsilon^{-2}) $、SGDのサンプル複雑度バウンドを $ \widetilde{\mathcal{O}}(\epsilon^{-1}) $ とし、これらは従来の深層ネットワーク結果よりも鋭く、二層ネットワークの最先端結果と一致する。
データの部分的分離性にも対応する分析を拡張し、訓練データの大部分が良好に分離されている場合、半径 $ R = \widetilde{\mathcal{O}}(1) $ のNTRF関数クラスが $ \epsilon $-誤差一般化を達成できることを示す。

実験結果

リサーチクエスチョン

RQ1近年の二層ReLUネットワークに関する結果に類似して、深層ReLUネットワークが多項対数的過パラメータ化のもとでトレーニング可能かどうか。
RQ2高精度近似を要求するのではなく、定数の線形近似誤差を許容しても、深層ネットワークにおけるグローバル収束および一般化が可能かどうか。
RQ3より緩い幅要件のもとで、GDおよびSGDのための、より鋭い一般化および収束バウンドを導出可能かどうか。
RQ4理論的フレームワークが部分的分離性を持つデータにどのように拡張可能か。また、$ \epsilon $-一般化を達成するために必要な幅は何か。
RQ5深層ネットワークにおけるGDおよびSGDの導出されたサンプル複雑度バウンドが、既存のバウンド、特に二層の場合に一致または改善するかどうか。

主な発見

多項対数的ネットワーク幅——具体的には $ m = \text{poly}(R) $、ここで $ R $ はNTRF関数クラスの半径——が、GDによるグローバル収束および深層ReLUネットワークの学習に十分である。
一般化誤差は幅 $ m \in \widetilde{\Omega}(1) $ の広い範囲で減少し、従来のNTKベースの解析で一般的に要求される $ m \gg n $ の条件を緩和する。
GDのサンプル複雑度は $ \widetilde{\mathcal{O}}(\epsilon^{-2}) $、SGDのサンプル複雑度は $ \widetilde{\mathcal{O}}(\epsilon^{-1}) $ であり、これらは従来の結果よりも鋭く、二層ネットワークの最良知見と一致する。
ネットワークとその線形化との間の定数の線形近似誤差が存在しても、理論的保証が成立する。これは、従来の研究と比較して仮定を大幅に緩和できることを示している。
訓練データの大部分が良好に分離されている場合、半径 $ R = \widetilde{\mathcal{O}}(1) $ のNTRF関数クラスが $ \epsilon $-一般化を達成でき、データ構造に対して高いロバストネスを示す。
バイナリCIFAR-10サブセットにおける実験的検証では、ゼロトレーニング誤差を達成するに必要な最小ネットワーク幅が、サンプルサイズとともに多項対数的に増加することが確認され、理論的予測と整合的である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。