QUICK REVIEW

[論文レビュー] Towards Understanding the Role of Over-Parametrization in Generalization of Neural Networks

Behnam Neyshabur, Zhiyuan Li|arXiv (Cornell University)|May 30, 2018

Adversarial Robustness in Machine Learning参考文献 19被引用数 214

ひとこと要約

本論は、2層ReLUネットワークのユニットごとの容量指標を導入し、隠れユニット数が増えると一般化境界が低下することを示し、過parameter化による一般化の改善を説明する。

ABSTRACT

Despite existing work on ensuring generalization of neural networks in terms of scale sensitive complexity measures, such as norms, margin and sharpness, these complexity measures do not offer an explanation of why neural networks generalize better with over-parametrization. In this work we suggest a novel complexity measure based on unit-wise capacities resulting in a tighter generalization bound for two layer ReLU networks. Our capacity bound correlates with the behavior of test error with increasing network sizes, and could potentially explain the improvement in generalization with over-parametrization. We further present a matching lower bound for the Rademacher complexity that improves over previous capacity lower bounds for neural networks.

研究の動機と目的

過parameter化にもかかわらず、ニューラルネットワークの幅を広げることが一般化を改善する理由を動機づけ、定量化する。
観測される実践とより一致する、ユニットごとの容量とユニットごとの影響に基づく容量指標を提案する。
隠れユニット数が増えると低下する、2層 ReLUネットワークのより厳密な一般化境界を導出する。
境界の鋭さを示すために、Rademacher複雑さの一致する下界を提供する。

提案手法

ユニット容量 beta_i を ||u_i - u_i^0||_2 として、ユニット影響 alpha_i = ||v_i||_2 と定義する。
仮説クラスを、1ユニットあたりの容量と影響が有界なネットワークに制限する（V, U は集合 W に属する）。
このクラスと組み合わせた損失の Rademacher 複雑さを計算し、和 sum_i alpha_i beta_i およびデータノルムにスケールする境界を得る。
一般化境界（定理2）を証明し、L0(f) ≤ L_gamma_hat(f) + h に比例して縮小する項と、+ 小さな sqrt(h/m) の加法項を示す。
関連クラスに対する下界（定理3）を提供し、上界が定数分だけ厳密であることを示す。
大きな h に対して、p-ノルムに基づくカバーを用いた改良境界を拡張する（定理5とCorollary 6）。

実験結果

リサーチクエスチョン

RQ1過parameter化（隠れユニットを増加させること）は、2層 ReLU ネットワークの一般化を改善しますか？そしてその理由は？
RQ2ユニットごとの容量とユニットごとの影響は、従来のノルムベースの指標よりも一般化の挙動を説明できますか？
RQ3初期化と各ユニットの制約に関して、2層 ReLU ネットワークの Rademacher 複雑さの厳密な境界は何ですか？
RQ4提案した境界は、CIFAR-10、SVHN、 MNIST において、既存の境界と比較して経験的にどのように振る舞いますか？
RQ5p-ノルムに基づく解析を用いてより大きな h に結果を拡張できますか、そしてトレードオフは何ですか？

主な発見

提案されたユニットごとの容量境界は、隠れユニット数の増加とともに低下し、実験でのテスト誤差の低下と相関する。
初期化へのユニットごとの距離（ユニット容量）は、より大きなネットワークで縮小し、ユニット影響（出力重み）も 1/√h より速く低下する。
境界は最上層のフロベニウスノルムと隠れ層の重みと初期化との差のフロベニウスノルムを用い、従来のノルムベース境界より改善を示す。
Rademacher 複雑さの一致する下界が確立され、従来の境界を改善し、リプシッツベースの解析を超えたギャップを浮かび上がらせる。
CIFAR-10 および SVHN での実証結果は、explicit regularization がなくても、より大きなネットワークがより良く一般化できることを示し、ユニットごとの指標は h とともに減少する。
極端に大きな h に対する改良境界は、p-ノルムに基づくカバーを用いて問題の sqrt(h) 加法項を減らす（p ≈ log h）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。