Skip to main content
QUICK REVIEW

[論文レビュー] Sensitivity and Generalization in Neural Networks: an Empirical Study

Roman Novak, Yasaman Bahri|arXiv (Cornell University)|Feb 23, 2018
Neural Networks and Applications参考文献 43被引用数 224
ひとこと要約

本論文は経験的にニューラルネットワークの一般化を入力-出力ヤコビアン感度と線形領域の転移に関連づけ、データマニフォールド近傍の頑健性が多様なアーキテクチャや設定でより良い一般化と相関することを示している。

ABSTRACT

In practice it is often found that large over-parameterized neural networks generalize better than their smaller counterparts, an observation that appears to conflict with classical notions of function complexity, which typically favor smaller models. In this work, we investigate this tension between complexity and generalization through an extensive empirical exploration of two natural metrics of complexity related to sensitivity to input perturbations. Our experiments survey thousands of models with various fully-connected architectures, optimizers, and other hyper-parameters, as well as four different image classification datasets. We find that trained neural networks are more robust to input perturbations in the vicinity of the training data manifold, as measured by the norm of the input-output Jacobian of the network, and that it correlates well with generalization. We further establish that factors associated with poor generalization $-$ such as full-batch training or using random labels $-$ correspond to lower robustness, while factors associated with good generalization $-$ such as data augmentation and ReLU non-linearities $-$ give rise to more robust functions. Finally, we demonstrate how the input-output Jacobian norm can be predictive of generalization at the level of individual test points.

研究の動機と目的

  • 過剰パラメータ化ネットワークにおけるモデル容量と一般化の緊張関係を調査する。
  • 入力撹乱に関連する感度指標を定義し評価する。
  • さまざまなアーキテクチャ、オプティマイザ、ハイパーパラメータにわたる感度と一般化の関係を検討する。
  • 感度指標が個々のテスト点レベルで一般化を予測できるかを評価する。

提案手法

  • 全結合ネットワークのための2つの感度指標を定義する:ソフトマックス出力のヤコビアンノルムと入力軌道に沿った線形領域転移の数を定義する。
  • テスト点周辺で平均ヤコビアン・フロベニウスノルムを計算して局所感度を測定する。
  • データマニフォールドに近い軌道に沿ってニューロン活性パターンを符号化して線形領域間の転移を数える。
  • 訓練データ点を通る円形軌道と楕円を用いてデータマニフォールド上とそれ以外の感度を比較する。
  • 一般化へ影響を与える要因(例:データ拡張、ラベル品質、ReLU対飽和活性化、ミニバッチ訓練 vs 全バッチ訓練)下での感度を分析する。
  • 複数の画像分類データセットで数千の全結合モデルを対象に大規模実験を行う。

実験結果

リサーチクエスチョン

  • RQ1ニューラルネットワークの一般化は入力-出力ヤコビアン感度と相関するか?
  • RQ2一般化に影響を与える要因(例:データ拡張、ラベリング、活性化関数、バッチサイズ)は感度にどのように影響するか?
  • RQ3感度は個々のテスト点レベルで一般化を予測できるか?
  • RQ4アーキテクチャと最適化ハイパーパラメータが異なるモデルを評価したとき、感度指標はどのように比較されるか?

主な発見

  • ヤコビアンノルムは多様な設定とデータセットで一般化と相関する。
  • データマニフォールド外では感度が高く、訓練データ点の近くで低下し、その領域では関数がより頑健であることを示す。
  • 一般化を改善する要因(正しいラベル、データ拡張、ReLU活性化、ミニバッチ最適化)は一貫して感度の低下を伴う。
  • 転移密度だけでは異なるサイズのネットワークを比較するには不十分であり、アーキテクチャのサイズが転移数に影響を与える。
  • 個々のテスト点におけるヤコビアンノルムはクロスエントロピー損失と相関し、アクティブラーニングと信頼度推定の点で点ごとの予測有用性を示唆する。
  • 本研究は、学習関数の局所幾何と画像分類の一般化を結ぶ広範な経験的証拠を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。