Skip to main content
QUICK REVIEW

[論文レビュー] Deep ReLU Networks Have Surprisingly Few Activation Patterns

Boris Hanin, David Rolnick|arXiv (Cornell University)|Jun 3, 2019
Neural Networks and Applications参考文献 36被引用数 24
ひとこと要約

この論文は、深層ReLUネットワークが訓練中ですら理論的に可能な数に比べてはるかに少ない活性化パターンを持つことを示している。平均的な活性化領域の数に対するタイトな上界を証明し、この上界が初期化時および訓練中にも成り立つことを示しており、実用的な表現力の限界が初期化および最適化ダイナミクスに起因していることを示唆している。

ABSTRACT

The success of deep networks has been attributed in part to their expressivity: per parameter, deep networks can approximate a richer class of functions than shallow networks. In ReLU networks, the number of activation patterns is one measure of expressivity; and the maximum number of patterns grows exponentially with the depth. However, recent work has showed that the practical expressivity of deep networks - the functions they can learn rather than express - is often far from the theoretical maximum. In this paper, we show that the average number of activation patterns for ReLU networks at initialization is bounded by the total number of neurons raised to the input dimension. We show empirically that this bound, which is independent of the depth, is tight both at initialization and during training, even on memorization tasks that should maximize the number of activation patterns. Our work suggests that realizing the full expressivity of deep networks may not be possible in practice, at least with current methods.

研究の動機と目的

  • 深層ネットワークが実際には理論的な表現力に比べてしばしばその潜在能力を十分に発揮しない理由を理解すること。
  • 理論的最大値ではなく、通常の活性化パターン(領域)の数を定量化すること。
  • 理論的な表現力と実際の学習関数とのギャップが初期化か最適化に起因するかどうかを調査すること。
  • 活性化領域の数が深さに依存せずに一貫して有界であるという理論的・実験的証拠を提供すること。
  • 勾配ベースの訓練が深層ネットワークの表現力の全潜在能力に到達できない理由を説明すること。

提案手法

  • 幾何学的および確率的議論を用いたReLUネットワークにおける活性化領域の理論的分析。
  • 単位体積あたりの期待される活性化領域数に対する上界の導出。この上界はニューロン数と入力次元に依存する。
  • ゼロバイアスReLUネットワークにおけるスケール不変性を用いて、活性化領域数の上界を証明すること。
  • 初期化および訓練ダイナミクスの実験的検証、特に記憶タスクを含む。
  • ゼロバイアスネットワークから一般バイアスネットワークへの写像を導入し、領域数の比較を可能にする。
  • バイアス値と勾配行動が活性化パターン形成に与える影響の分析。

実験結果

リサーチクエスチョン

  • RQ1なぜ深層ReLUネットワークは理論的最大値に比べてはるかに少ない活性化パターンを示すのか?
  • RQ2実際の運用において、ReLUネットワークの活性化パターン数は深さに依存せずに有界であるか?
  • RQ3勾配ベースの訓練は初期化時よりも顕著に活性化パターン数を増加させるのか?
  • RQ4初期化スキームおよびバイアス分布は、活性化領域の形成にどのように影響するか?
  • RQ5観察された活性化パターンの制限は、ニューロン行動の幾何学的・確率的制約によって説明可能か?

主な発見

  • ReLUネットワークにおける平均的な活性化パターン数は、深さに依存せず、ニューロン総数を入力次元でべき乗した値で有界である。
  • この上界はネットワークの初期化時にも成り立ち、記憶タスクでさえも訓練中を通してタイトなまま維持される。
  • 入力空間内の立方体が交差する活性化領域の数は、(T × #neurons)^{n_in} / n_in! に比例して最大で増加する。ここで T は定数。
  • ゼロバイアスReLUネットワークはスケール不変性を示し、その活性化領域数は O(n_in × #neurons)^{n_in - 1} で有界である。
  • 実験的結果により、記憶最大化を試みても、活性化領域数は理論的最大値に比べて著しく低いことが確認された。
  • 多数の活性化パターンが形成されるためには、極めて整合性の取れた勾配や大きな出力範囲が必要であり、これは標準的な初期化ではあり得ない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。