Skip to main content
QUICK REVIEW

[論文レビュー] Complexity of Linear Regions in Deep Networks

Boris Hanin, David Rolnick|arXiv (Cornell University)|Jan 25, 2019
Neural Networks and Applications被引用数 54
ひとこと要約

本論は、ReLU のような分岐線形ネットワークにおける線形領域を数えるための数学的枠組みを開発し、初期化時には 1D の部分空間に沿った領域の平均数がニューロン総数に対して線形にスケールし、領域境界までの平均距離がニューネルの数の逆数に比例することを示す。実験は訓練が指数的な領域数には達しないことを示唆する。

ABSTRACT

It is well-known that the expressivity of a neural network depends on its architecture, with deeper networks expressing more complex functions. In the case of networks that compute piecewise linear functions, such as those with ReLU activation, the number of distinct linear regions is a natural measure of expressivity. It is possible to construct networks with merely a single region, or for which the number of linear regions grows exponentially with depth; it is not clear where within this range most networks fall in practice, either before or after training. In this paper, we provide a mathematical framework to count the number of linear regions of a piecewise linear network and measure the volume of the boundaries between these regions. In particular, we prove that for networks at initialization, the average number of regions along any one-dimensional subspace grows linearly in the total number of neurons, far below the exponential upper bound. We also find that the average distance to the nearest region boundary at initialization scales like the inverse of the number of neurons. Our theory suggests that, even after training, the number of linear regions is far below exponential, an intuition that matches our empirical observations. We conclude that the practical expressivity of neural networks is likely far below that of the theoretical maximum, and that this gap can be quantified.

研究の動機と目的

  • Piecewise linear ネットワークの線形領域と領域境界を介して表現力を厳密に測るための動機づけ。
  • 初期化時および訓練中の領域数を数え、境界体積を定量化する数学的手法を開発する。
  • 1D 線に沿う平均領域数が深さではなく総ニューロン数に比例することを示し、領域境界までの距離を 1/ニューロンで下界化する。
  • MNIST で理論結果を経験的に検証し、訓練中の領域数の安定性を観察する。

提案手法

  • 分岐線形活性化を用いてネットワークをモデル化し、入力空間を線形領域に分割する。
  • 勾配が不連続になる境界集合 B_N を定義し、これを k-次元分解成分 B_N,k に分解する。
  • 有界な K の内側での B_N,k の期待値の (n_in - k)-次元体積がニューロン数に比例してスケールすることを証明する(定理 3)。
  • 1D 線上の領域数と領域境界までの距離に関する明示的な界を導く推論(系数)を与える(同Corollaries 4-5)。
  • He-normal 初期化と MNIST データを用いて線に沿った領域を数え、境界までの距離を測定する実験を行う。
  • コアアワーとヤコビ計算を用いて、領域境界をニューロン勾配とバイアスに関連づける。

実験結果

リサーチクエスチョン

  • RQ1初期化時に 1D 入力線に沿って ReLU ネットワークはいくつの線形領域を平均的に持つか。
  • RQ2線形領域間の境界体積はネットワークのサイズと深さとともにどうスケールするか。
  • RQ3ランダムな入力から最近傍の領域境界までの典型的な距離はどれくらいで、ニューロン数とどうスケールするか。
  • RQ4実データ(例: MNIST)で訓練中にこれらの領域特性はどう変化するか。

主な発見

  • 1D 入力に対して、線形領域の平均数は線形にニューロン数に比例し、深さに依存しない。
  • 初期化時の境界までの最近傍距離の平均は、定数をニューロン数で割ったスケールである。
  • 境界密度は有界な入力領域に沿って、ニューロン数(と非線形性のブレークポイント)に比例する。
  • 訓練中も領域数と境界までの距離は概ね一定に保たれ、指数的な最大値からは遠いことが示される。
  • MNIST での経験的可視化は、訓練中に領域が拡大してから縮小し、領域数は初期化スケール付近に留まることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。