QUICK REVIEW

[论文解读] Provable Bounds for Learning Some Deep Representations

Sanjeev Arora, Aditya Bhaskara|arXiv (Cornell University)|Oct 23, 2013

Generative Adversarial Networks and Image Synthesis参考文献 26被引用 241

一句话总结

本文提出了一种可证明高效的算法，用于学习具有随机权重和有界度数的深度神经网络，采用逐层学习与基于相关性的图恢复方法。结果表明，在多项式时间内以二次或三次样本复杂度，几乎可以学习所有此类网络，从而在温和假设下证明了具有稀疏连接性的随机深度网络是可学习的。

ABSTRACT

We give algorithms with provable guarantees that learn a class of deep nets in the generative model view popularized by Hinton and others. Our generative model is an $n$ node multilayer neural net that has degree at most $n^γ$ for some $γ<1$ and each edge has a random edge weight in $[-1,1]$. Our algorithm learns {\em almost all} networks in this class with polynomial running time. The sample complexity is quadratic or cubic depending upon the details of the model. The algorithm uses layerwise learning. It is based upon a novel idea of observing correlations among features and using these to infer the underlying edge structure via a global graph recovery procedure. The analysis of the algorithm reveals interesting structure of neural networks with random edge weights.

研究动机与目标

在生成模型框架下，为深度神经网络的学习提供理论保证，解决标准训练中NP难性的问题。
通过假设随机稀疏连接与[-1,1]范围内的随机边权重，克服学习深度网络时的密码学难解性障碍。
开发一种逐层学习算法，能从底层激活值的样本中高效恢复底层网络结构。
证明在低样本复杂度与多项式运行时间下，此类随机稀疏深度网络是可证明可学习的。
证明即使在任意权重下，两层网络的表达能力也优于单层网络，这是由于单层中无法复制的结构性抵消效应。

提出的方法

采用生成模型，其中深度网络中每个节点最多激活其上下各 $ n^\gamma $ 个节点，且 $ \gamma < 1 $，以确保稀疏性。
假设图结构随机且边权重在 $[-1,1]$ 范围内随机分布，从而支持对特征相关性的概率分析。
采用逐层学习：底层通过无监督方式学习，其隐藏表征用于训练下一层。
基于跨层特征间相关性的观察，应用全局图恢复过程，以推断底层边结构。
利用成对节点若具有唯一共同邻居，则其激活相关性显著高于无共同邻居的节点这一事实。
运用线性代数与集中不等式，基于稀疏性与随机权重假设，对高阶矩（如 $ \mathbb{E}[y_u y_v y_s] $）进行上界估计。

实验结果

研究问题

RQ1我们能否使用可证明的算法学习具有随机权重和稀疏连接性的深度神经网络？
RQ2在何种网络结构假设下（如稀疏性、随机权重），高效学习成为可能？
RQ3为何具有 $\pm1$ 权重的两层网络比具有任意权重的单层网络更具表达能力？
RQ4能否利用底层特征间的相关性模式来恢复深度网络的底层图结构？
RQ5学习此类深度生成模型所需样本复杂度与运行时间是多少，才能以高概率实现？

主要发现

该算法在多项式时间内以二次或三次样本复杂度，学习几乎全部指定类别的深度网络。
对于具有 $\pm1$ 权重的两层网络，单层网络无法匹配其输出的概率至少为 $ \Omega(\rho_3^2) $，从而证明了更强的表达能力。
当 $ \rho_1 d = O(1) $ 且 $ d = \Omega(\log^2 n) $ 时，若 $ u,v,s $ 具有唯一共同邻居，则期望三重相关性 $ \mathbb{E}[y_u y_v y_s] $ 至少为 $ 2\rho_1/3 $；否则至多为 $ \rho_1/3 $。
由于随机稀疏连接性所诱导的受控相关性结构，网络结构可高概率被恢复。
每对相邻层构成一个去噪自编码器，验证了生成模型的合理性。
该算法输出的网络在生成行为上与真实网络在统计上不可区分，且当边权重属于 $\{-1,1\}$ 时可精确恢复网络。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。