Skip to main content
QUICK REVIEW

[論文レビュー] On the Connection Between Learning Two-Layers Neural Networks and Tensor Decomposition

Marco Mondelli, Andrea Montanari|arXiv (Cornell University)|Feb 20, 2018
Tensor decomposition and applications参考文献 36被引用数 23
ひとこと要約

この論文は、3次テンソル分解への還元を通じて、多項式活性化関数を用いる2層ReLU型ニューラルネットワークの計算的硬さを確立する。標準的ガウス分布のデータとランダムな等方的重みを仮定し、3次テンソル分解に対する和の平方(SoS)法より優れる多項式時間アルゴリズムが存在しないという計算複雑性の仮定のもと、重みユニット数 $ r $ が $ d^{3/2} \ll r \ll d^2 $ を満たすとき、効率的な学習アルゴリズムは、自明な予測子(出力の平均)よりも一般化性能が良くならないことを証明する。

ABSTRACT

We establish connections between the problem of learning a two-layer neural network and tensor decomposition. We consider a model with feature vectors $\boldsymbol x \in \mathbb R^d$, $r$ hidden units with weights $\{\boldsymbol w_i\}_{1\le i \le r}$ and output $y\in \mathbb R$, i.e., $y=\sum_{i=1}^r σ( \boldsymbol w_i^{\mathsf T}\boldsymbol x)$, with activation functions given by low-degree polynomials. In particular, if $σ(x) = a_0+a_1x+a_3x^3$, we prove that no polynomial-time learning algorithm can outperform the trivial predictor that assigns to each example the response variable $\mathbb E(y)$, when $d^{3/2}\ll r\ll d^2$. Our conclusion holds for a `natural data distribution', namely standard Gaussian feature vectors $\boldsymbol x$, and output distributed according to a two-layer neural network with random isotropic weights, and under a certain complexity-theoretic assumption on tensor decomposition. Roughly speaking, we assume that no polynomial-time algorithm can substantially outperform current methods for tensor decomposition based on the sum-of-squares hierarchy. We also prove generalizations of this statement for higher degree polynomial activations, and non-random weight vectors. Remarkably, several existing algorithms for learning two-layer networks with rigorous guarantees are based on tensor decomposition. Our results support the idea that this is indeed the core computational difficulty in learning such networks, under the stated generative model for the data. As a side result, we show that under this model learning the network requires accurate learning of its weights, a property that does not hold in a more general setting.

研究の動機と目的

  • 自然なデータ分布の下で、多項式活性化関数を用いる2層ニューラルネットワークの学習の計算複雑性を調査すること。
  • 重みユニット数 $ r $ が $ d^{3/2} $ から $ d^2 $ の間でスケーリングする高次元領域において、このようなモデルに対する効率的学習アルゴリズムが存在するかを特定すること。
  • 学習問題とテンソル分解の間の明確な形式的関係を確立し、後者が計算のボトルネックであることを示すこと。
  • 既存のテンソル分解に基づくアルゴリズムが、計算複雑性仮定の下で、単なるヒューリスティックではなく、実際には最適である可能性があるという証拠を提供すること。
  • この生成モデルにおいて、正確な重み回復が学習に不可欠であることを形式的に確立すること、これはより一般的な設定では保証されない性質である。

提案手法

  • 2層ニューラルネットワークの学習問題を、重みベクトルから構成される対称的3次テンソルの分解問題に還元する。
  • i.i.d. 標準ガウス特徴ベクトル $ \mathbf{x} \sim \mathcal{N}(0, I_d/d) $ を持つ生成モデルを用い、出力は $ y = \sum_{i=1}^r \sigma(\mathbf{w}_i^T \mathbf{x}) $ で与えられる。ここで $ \sigma $ は低次の多項式である。
  • 計算複雑性の仮定を採用:和の平方(SoS)階層が達成可能な精度を超えて、3次テンソル分解において $ \epsilon $-精度を達成する多項式時間アルゴリズムは存在しない。
  • 出力のノイズ付きバージョンを、テンソルモーメントの和として表現し、ホルダーの不等式と内積の減衰を用いて誤差項を評価する。
  • 重みが $ \delta $-相関を持つ(小さなペアワイズ内積を持つ)場合、テンソル展開の非対角項が小さくなるため、近似が制御可能になることを利用する。
  • 還元の議論を適用する:もしニューラルネットワークの効率的学習アルゴリズムが存在すれば、それを用いて困難なテンソル分解問題を解くことができ、仮定に矛盾する。

実験結果

リサーチクエスチョン

  • RQ1標準的ガウス分布のデータとランダムな等方的重みのもとで、多項式活性化関数を用いる2層ニューラルネットワークは、多項式時間で学習可能だろうか?
  • RQ2テンソル分解は、このようなネットワークの学習における根本的な計算的障壁だろうか?
  • RQ3学習が計算的に困難になるモデルの複雑さの範囲($ r $ と $ d $ の観点から)は何か?
  • RQ4仮定のもとで、$ r \ll d^2 $ かつ $ r \gg d^{3/2} $ のとき、自明な予測子($ y $ の平均)は最適のままであろうか?
  • RQ5この生成モデルのもとで、正確な重み回復の必要性を形式的に確立できるか?

主な発見

  • 和の平方階層が3次テンソル分解において達成可能な精度を超える多項式時間アルゴリズムが存在しないという仮定のもと、$ d^{3/2} \ll r \ll d^2 $ のとき、効率的学習アルゴリズムは自明な予測子(出力の平均)よりも一般化性能が良くならない。
  • 無限のサンプルと正確な期待値が利用可能であっても、この硬さ結果は成り立つため、これは純粋に計算的であり、統計的要因によるものではない。
  • 2層ネットワークの学習とテンソル分解の間の関係は偶然ではない。保証付きの既存のアルゴリズムが実際にテンソル分解に基づいていることから、これが核心的な計算的課題であることが示唆される。
  • 3次多項式活性化関数の場合、ネットワーク出力はテンソルモーメントの和として表現でき、主項はネットワークに対応し、誤差項は $ \delta^{k(p-1)} $ で有界である。ここで $ \delta $ は重みの相関を制御する。
  • 出力近似の誤差項は $ (\delta^m r)^{p-1} \sum_k c_k \sum_i |\langle \mathbf{w}_i, \mathbf{x}_j \rangle|^{p(\ell - (p-1)k)} $ で有界であり、$ \delta $ が小さくかつ $ r $ が大きすぎない場合、これは無視できるほど小さい。
  • このモデルにおいて、正確な重み回復が学習に不可欠であることを証明した。これは、データ分布が制約されていないより一般的な設定では保証されない性質である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。