Skip to main content
QUICK REVIEW

[論文レビュー] Spectrally-normalized margin bounds for neural networks

Peter L. Bartlett, Dylan J. Foster|arXiv (Cornell University)|Jun 26, 2017
Neural Networks and Applications参考文献 2被引用数 173
ひとこと要約

本論文は、マージン正規化スペクトル複雑さの積(スペクトルノルムの積と訂正項)にスケールするマルチクラスニューラルネットワークのマージンベースの一般化境界を導出し、MNISTとCIFAR-10上でAlexNetを用いた実証的支援を提供する。境界はマルチクラスのままで、層数やユニット数の数え上げには、対数因子を除き、明示的には依存しないことを示し、トレーニング中のマージン分布を用いて検証される。

ABSTRACT

This paper presents a margin-based multiclass generalization bound for neural networks that scales with their margin-normalized "spectral complexity": their Lipschitz constant, meaning the product of the spectral norms of the weight matrices, times a certain correction factor. This bound is empirically investigated for a standard AlexNet network trained with SGD on the mnist and cifar10 datasets, with both original and random labels; the bound, the Lipschitz constants, and the excess risks are all in direct correlation, suggesting both that SGD selects predictors whose complexity scales with the difficulty of the learning task, and secondly that the presented bound is sensitive to this complexity.

研究の動機と目的

  • マージン正規化スペクトル複雑さにスケールする、マルチクラスニューラルネットワークのマージンベースの一般化境界を開発する。
  • 境界が、組合せ的なネットワークパラメータではなく、スペクトルノルムと訂正係数に依存することを示す。
  • MNISTとCIFARデータセット上でAlexNet様のアーキテクチャを用いて、ランダムラベルを含めて、経験的に境界を検証する。
  • マージン正規化が一般化ダイナミクスとタスク難易度にどのように整合するかを示す。

提案手法

  • 層ごとのスペクトルノルムの積と、マージン正規化された訂正項(A_i^T - M_i^Tを含み、2,1ノルムを含む)からなるスペクトル複雑さ R_A を定義する。
  • マルチクラスのマージン境界(定理1.1)を証明し、Pr[argmax F_A(x) ≠ y] ≤ R̂_γ(F_A) + Õ((||X||_2 R_A)/(γ n) log(W) + sqrt(log(1/δ)/n)) を示す。
  • カバリング数の議論と Maurey の有疊化を用いてネットワーククラスのラデマッハ的複雑さを境界づけ、主要な境界に到達する。
  • 境界をマージン分布に関連づけ、重みノルムが増大しても有用性を維持することを示す。
  • 分析の一部における厳密性を示すため、ラデマッハ的複雑さの下界を提供する。
Figure 1 : An analysis of AlexNet (Krizhevsky et al., 2012 ) trained with SGD on cifar10 , both with original and with random labels. Triangle-marked curves track excess risk across training epochs (on a log scale), with an ‘ x ’ marking the earliest epoch with zero training error. Circle-marked cur
Figure 1 : An analysis of AlexNet (Krizhevsky et al., 2012 ) trained with SGD on cifar10 , both with original and with random labels. Triangle-marked curves track excess risk across training epochs (on a log scale), with an ‘ x ’ marking the earliest epoch with zero training error. Circle-marked cur

実験結果

リサーチクエスチョン

  • RQ1マージン正規化スペクトル複雑さにスケールする、マルチクラスニューラルネットワークのマージンベース一般化境界をいかに定式化できるか?
  • RQ2スペクトルノルムとマージン正規化に依存する境界が、異なるタスクやラベル構成に対して一般化の有意な指針を提供するか?
  • RQ3深さや幅などの明示的な組合せ的ネットワークパラメータを、対数因子を超えて独立にすることは可能か?
  • RQ4学習中に観測されるマージン分布が過剰リスクと相関し、タスク難易度を反映するか?
  • RQ5標準データセットとランダムラベルで、境界の関連性を支持する実証的証拠は何か?

主な発見

  • マージンにより割ったスペクトルノルムの積と訂正項にスケールする、クラス数に明示的に依存しないマージンベースの境界が確立される。
  • 境界はスペクトル複雑さ R_A と基準行列 M_i に依存し、基準ネットワークからの距離を捕らえる。
  • AlexNet様ネットワークに対する経験的分析は、マージン分布がタスク難易度および過剰リスクと相関し、MNIST、CIFAR-10、ラベル/ランダムラベル設定で一致する。
  • 重みノルムが増大しても、トレーニング中にマージン分布は収束し、これらの実験ではL2正則化がマージンや一般化に強く影響しない。
  • マージンを意味的に改善する正則化は未解決の課題として挙げられ、一般的なウェイト減衰とマージン最適化のギャップを示唆する。
(a) Margins.
(a) Margins.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。