Skip to main content
QUICK REVIEW

[論文レビュー] Data-dependent Sample Complexity of Deep Neural Networks via Lipschitz Augmentation

Colin Wei, Tengyu Ma|arXiv (Cornell University)|May 9, 2019
Sparse and Compressive Sensing Techniques参考文献 53被引用数 45
ひとこと要約

本論文は、データ依存の Rademacher 複雑度境界を深層ネットワークに対して、リプシッツ正則化特性(層ノルムおよび Jacobian ノルム)を持つネットワークを拡張することによって導出し、深さの多項式的な一般化境界を示すとともに、訓練時の Jacobian に基づく正則化を提案する。

ABSTRACT

Existing Rademacher complexity bounds for neural networks rely only on norm control of the weight matrices and depend exponentially on depth via a product of the matrix norms. Lower bounds show that this exponential dependence on depth is unavoidable when no additional properties of the training data are considered. We suspect that this conundrum comes from the fact that these bounds depend on the training data only through the margin. In practice, many data-dependent techniques such as Batchnorm improve the generalization performance. For feedforward neural nets as well as RNNs, we obtain tighter Rademacher complexity bounds by considering additional data-dependent properties of the network: the norms of the hidden layers of the network, and the norms of the Jacobians of each layer with respect to all previous layers. Our bounds scale polynomially in depth when these empirical quantities are small, as is usually the case in practice. To obtain these bounds, we develop general tools for augmenting a sequence of functions to make their composition Lipschitz and then covering the augmented functions. Inspired by our theory, we directly regularize the network's Jacobians during training and empirically demonstrate that this improves test performance.

研究の動機と目的

  • データ依存的な性質がマージンを超えて、深層ネットの一般化境界をより厳しくする理由を動機づける。
  • データ依存のリプシッツ特性でネットワークを拡張して Rademacher 複雑度を境界付けする枠組みを開発する。
  • 訓練データ上の隠れ層ノルムと層間 Jacobian ノルムに依存する深さの多項式境界を導出する。
  • 訓練中に Jacobians を制御する実用的な正則化戦略を提案し、テスト性能への影響を評価する。

提案手法

  • ニューラルネットを層演算子と活性化の合成として表現する。
  • 層ノルムと Jacobian に関するソフト指標を用いたロスのリプシッツ拡張を導入し、最悪のリプシッツ定数を上回る境界を得る。
  • 拡張されたロスを扱うために計算グラフ表現へカバー数技法を拡張する。
  • 訓練データ上での層ノルム、Jacobians ノルム、幅に依存しない項、深さ r の項の量を含む量へ近似的な形式で評価できる L-test <= tilde-O を示す境界を導く。
  • 拡張計算グラフをカバーしてデータ依存の一般化境界を得るための正式な枠組み(Theorem 4.3, 5.3, 6.x)を提供する。

実験結果

リサーチクエスチョン

  • RQ1データ依存的なネットワーク特性(マージンを超えて)で深層ネットの一般化境界を厳しくできるものは何か?
  • RQ2リプシッツ拡張と Jacobian ノルムは深さとともに指数ではなく多項式的にスケールする境界を生み出せるか?
  • RQ3拡張された計算グラフへカバー数の議論を拡張してデータ依存のロスを境界付ける方法は?
  • RQ4ネットワークの Jacobians を正則化することは経験的な一般化性能を改善するか?

主な発見

  • 訓練データのリプシッツ定数と Jacobian ノルムが小さい場合、深さに多項式にスケールするデータ依存の一般化境界が得られる。
  • 境界は訓練データ上で測定される最大の隠れ層ノルム t および最大の層間 Jacobian 演算子ノルム sigma に依存する。
  • 層ノルムと Jacobian のソフト指標でロスを拡張することにより、カバー数の実行可能なリプシッツ境界の枠組みが得られる。
  • 著者らは実用的な解釈を提供する:訓練中に Jacobians を正則化するとテスト性能が改善されるという実験結果。
  • この枠組みは再帰的ネットにも拡張され、同様に深さに対して多項式の境界が得られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。