Skip to main content
QUICK REVIEW

[論文レビュー] On the Power and Limitations of Random Features for Understanding Neural Networks

Gilad Yehudai, Ohad Shamir|arXiv (Cornell University)|Apr 1, 2019
Neural Networks and Applications被引用数 29
ひとこと要約

この論文は、過パラメータ化されたニューラルネットワークの訓練を説明するために一般的に用いられるランダム特徴量手法が、標準的なガウス入力のもとでは、単一の ReLU ニューロンでさえも、入力次元 d に対して指数的多くの特徴量または指数的に大きな重みを必要とするため、効率的に近似できないことを示している。これは、ランダム特徴量に基づく現在の理論枠組みに根本的な制限があることを示しており、勾配ベースの訓練による深層ネットワークの一般化の成功を完全に説明することはできないと示唆している。

ABSTRACT

Recently, a spate of papers have provided positive theoretical results for training over-parameterized neural networks (where the network size is larger than what is needed to achieve low error). The key insight is that with sufficient over-parameterization, gradient-based methods will implicitly leave some components of the network relatively unchanged, so the optimization dynamics will behave as if those components are essentially fixed at their initial random values. In fact, fixing these explicitly leads to the well-known approach of learning with random features. In other words, these techniques imply that we can successfully learn with neural networks, whenever we can successfully learn with random features. In this paper, we first review these techniques, providing a simple and self-contained analysis for one-hidden-layer networks. We then argue that despite the impressive positive results, random feature approaches are also inherently limited in what they can explain. In particular, we rigorously show that random features cannot be used to learn even a single ReLU neuron with standard Gaussian inputs, unless the network size (or magnitude of the weights) is exponentially large. Since a single neuron is learnable with gradient-based methods, we conclude that we are still far from a satisfying general explanation for the empirical success of neural networks.

研究の動機と目的

  • 過パラメータ化されたニューラルネットワークの訓練とランダム特徴量手法との間の関係を形式化すること。
  • ランダム特徴量アプローチがニューラルネットワークの一般化を説明する上で内在する限界を特定すること。
  • 入力次元 d に対して、ランダム特徴量を用いて単一の ReLU ニューロンを近似するには、指数的多くの特徴量または指数的に大きな重みが必要であることを証明すること。
  • この制限が、多層ニューラルネットワークやカーネルベースの特徴量を含む一般のランダム特徴量に対しても成り立つことを示すこと。
  • 多項式関数に対しては肯定的な結果が得られるが、ランダム特徴量はニューラルネットワークの完全な表現力を取り入れることができないことを示すこと。

提案手法

  • 勾配ベースの過パラメータ化ネットワークの訓練と、最初の層の重みが初期化時に固定されたものとして扱われるランダム特徴量による学習との間の関係を形式化すること。
  • 標準的なガウス入力分布下での形 $ f_i(x) = f(Wx) $ のランダム特徴量の近似能力を分析すること。ここで $ W $ はランダム行列である。
  • 測度の集中と反集中の議論を用いて、$ r $ 個のランダム特徴量の線形結合が、$ r $ または $ \text{max}|u_i| $ が $ d $ に対して指数的に大きくなるまで、ReLU ニューロンをよく近似できないことを示すこと。
  • 構造的仮定なしに一般のランダム特徴量 $ f_i(x) $ に対する分析を拡張し、任意の分布に対して、ある ReLU ニューロンが効率的に近似できないことを証明すること。
  • ReLU 関数の斉次性を用いて、ターゲット重みベクトル $ w^* $ とバイアス $ b^* $ をスケーリングし、ノルムの大きさと必要な近似誤差の間のトレードオフを可能にすること。
  • ランダム特徴量のサンプリングにおける高確率の境界を用いて、失敗は悪い初期化によるものではなく、ランダム特徴量フレームワーク固有のものであることを確立すること。

実験結果

リサーチクエスチョン

  • RQ1標準的なガウス入力を持つ $ \mathbb{R}^d $ において、ランダム特徴量手法は単一の ReLU ニューロンを効率的に近似できるか?
  • RQ2一定の誤差内での ReLU ニューロンの近似に必要なランダム特徴量の最小数、または重みの大きさは何か?
  • RQ3ランダム特徴量の制限は、多層ニューラルネットワークやカーネル法を含む一般の特徴量族にも拡張可能か?
  • RQ4勾配降下法によって学習可能であることが知られている ReLU ニューロンを、ランダム特徴量ベースの分析が勾配ベースの訓練の成功を説明できるか?
  • RQ5ランダム特徴量近似において、ターゲット重みベクトルのノルムと必要な特徴量の複雑さの間にはトレードオフがあるか?

主な発見

  • 任意の $ r $ 個のランダム特徴量 $ f_i(x) = f(Wx) $($ W $ はランダム行列)の分布に対して、ReLU ニューロン $ [\langle w^*, x \rangle + b^*]_+ $ の近似誤差が $ 1/50 $ 以下であれば、ある普遍定数 $ c_3 $ に対して $ r \cdot \max_i |u_i| \geq \frac{1}{200d^4} \exp(c_3 d) $ が成り立つ。これは $ d $ に対して指数的依存を示唆している。
  • $ \|f_i\| \leq \exp(c_2 d) $ を満たす一般のランダム特徴量 $ f_i(x) $ に対しても、$ \|w^*\| = d^3 $ かつ $ |b^*| \leq 6d^4 + 1 $ である ReLU ニューロンが存在し、誤差 $ 1/50 $ 以内に近似できない。これは $ r \cdot \max_i |u_i| \geq \frac{1}{200d^4} \exp(c_3 d) $ が高確率で成り立つ必要があることと同値である。
  • この下界は、多層ニューラルネットワークやカーネルベースの特徴量を含む、特徴量族の任意の分布に対して成り立つ。これは、ランダム特徴量パラダイム固有の根本的な制限を示している。
  • この結果は、ランダム特徴量に基づく解析が、深層ネットワークにおける勾配ベースの訓練の一般化を説明できないことを示唆している。なぜなら、単一の ReLU ニューロンは勾配降下法で学習可能だが、ランダム特徴量では学習不可能だからである。
  • トレードオフが存在する:$ \|w^*\| = \alpha d $ である ReLU ニューロンに対して、必要な $ r \cdot \max_i |u_i| $ は $ \Omega(\exp(c_3 d)/\alpha) $ のオーダーで増加する。これは、ノルムが大きいターゲットでは指数的に多くのリソースが必要であることを示している。
  • 失敗は初期化の悪さによるものではなく、ランダム特徴量フレームワーク固有のものである。なぜなら、特徴量のサンプリングに関して高確率で成り立つからである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。