QUICK REVIEW

[論文レビュー] Provable Bounds for Learning Some Deep Representations

Sanjeev Arora, Aditya Bhaskara|arXiv (Cornell University)|Oct 23, 2013

Generative Adversarial Networks and Image Synthesis参考文献 26被引用数 241

ひとこと要約

本稿では、層別学習と相関に基づくグラフ回復を用いて、ランダムな重みと有界な次数を持つ深層ニューラルネットワークを、証明可能に効率的に学習するアルゴリズムを提示する。ほとんどすべてのこのようなネットワークが、多項式時間で2次または3次サンプル複雑性で学習可能であることが示され、弱い仮定のもとでスパース接続を持つランダムな深層ネットワークが学習可能であることを確立する。

ABSTRACT

We give algorithms with provable guarantees that learn a class of deep nets in the generative model view popularized by Hinton and others. Our generative model is an $n$ node multilayer neural net that has degree at most $n^γ$ for some $γ<1$ and each edge has a random edge weight in $[-1,1]$. Our algorithm learns {\em almost all} networks in this class with polynomial running time. The sample complexity is quadratic or cubic depending upon the details of the model. The algorithm uses layerwise learning. It is based upon a novel idea of observing correlations among features and using these to infer the underlying edge structure via a global graph recovery procedure. The analysis of the algorithm reveals interesting structure of neural networks with random edge weights.

研究の動機と目的

生成モデルフレームワークにおける深層ニューラルネットワークの学習に対する理論的保証を提供すること。これは、標準的な学習におけるNP困難性の課題に対処することを目的とする。
深層ネットワークの学習における暗号的ハードネスの障壁を打ち破るために、ランダムでスパースな接続性と[-1,1]内のランダムなエッジ重みを仮定すること。
下層の活性化値のサンプルから、元のネットワーク構造を効率的に回復する層別学習アルゴリズムを開発すること。
このようなランダムでスパースな深層ネットワークが、低サンプル複雑性と多項式実行時間で証明可能に学習可能であることを確立すること。
構造的キャンセレーションが1層では再現不可能であるため、任意の重みをもつ1層ネットワークとは対照的に、2層ネットワークがより表現力に優れていることを示すこと。

提案手法

各ノードが下位および上位のノードに高々 $ n^\gamma $ 個のノードに接続され、$ \gamma < 1 $ である生成モデルを採用し、スパarsityを保証する。
ランダムなグラフ構造と[-1,1]内のランダムなエッジ重みを仮定し、特徴量の相関に関する確率的解析を可能にする。
層別学習を採用：下層は教師なしで学習され、その隠れ表現が次の層の学習に用いられる。
層間の特徴量間の相関を観測することで、元のエッジ構造を推定するグローバルなグラフ回復手順を適用する。
一意な共通のノードを持つノードペアは、共通ノードを持たないペアよりも顕著に高い活性化相関を示すという事実を活用する。
スパarsityとランダム重み仮定の下で、高階モーメント（例：$ \mathbb{E}[y_u y_v y_s] $）の境界を線形代数と集中不等式を用いて導出する。

実験結果

リサーチクエスチョン

RQ1ランダムな重みとスパースな接続性を持つ深層ネットワークを、証明可能なアルゴリズムで学習することは可能か？
RQ2ネットワークの構造的仮定（例：スパarsity、ランダムな重み）がどのような条件下で効率的な学習が可能になるか？
RQ3なぜ$\pm1$の重みをもつ2層ネットワークは、任意の重みをもつ1層ネットワークよりも表現力に優れているのか？
RQ4下層の特徴量間の相関パターンを用いて、深層ネットワークの元のグラフ構造を回復できるか？
RQ5高い確率でこのような深層生成モデルを学習するために必要なサンプル複雑性と実行時間は何か？

主な発見

アルゴリズムは、指定されたクラスに属するほとんどすべての深層ネットワークを、多項式時間で2次または3次サンプル複雑性で学習する。
2層ネットワークに$\pm1$の重みを用いる場合、1層ネットワークがその出力を再現できない確率は少なくとも $ \Omega(\rho_3^2) $ であることが示され、より高い表現力が証明される。
$ \rho_1 d = O(1) $ かつ $ d = \Omega(\log^2 n) $ のとき、$ u,v,s $ が一意な共通ノードを持つならば、期待三重相関 $ \mathbb{E}[y_u y_v y_s] $ は少なくとも $ 2\rho_1/3 $ であり、そうでない場合は最大 $ \rho_1/3 $ である。
ランダムでスパースな接続性が誘導する制御された相関構造のおかげで、ネットワーク構造は高確率で回復可能である。
隣接する各層のペアは、ノイズ除去オートエンコーダを形成する。これは生成モデルの妥当性を裏付ける。
アルゴリズムの出力は、真のネットワークと統計的に区別できない生成的挙動を示し、エッジ重みが $\{-1,1\}$ に属する場合には正確にネットワークを回復する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。