QUICK REVIEW

[论文解读] On the Power and Limitations of Random Features for Understanding Neural Networks

Gilad Yehudai, Ohad Shamir|arXiv (Cornell University)|Apr 1, 2019

Neural Networks and Applications被引用 29

一句话总结

本文表明，随机特征方法——常用于解释过参数化神经网络训练的工具——在标准高斯输入下，无法高效逼近单个 ReLU 神经元，其所需特征数量或权重大小在输入维度 d 上呈指数级增长。这揭示了当前基于随机特征的理论框架的根本局限性，表明其无法完全解释梯度基训练在深层网络中的泛化成功。

ABSTRACT

Recently, a spate of papers have provided positive theoretical results for training over-parameterized neural networks (where the network size is larger than what is needed to achieve low error). The key insight is that with sufficient over-parameterization, gradient-based methods will implicitly leave some components of the network relatively unchanged, so the optimization dynamics will behave as if those components are essentially fixed at their initial random values. In fact, fixing these explicitly leads to the well-known approach of learning with random features. In other words, these techniques imply that we can successfully learn with neural networks, whenever we can successfully learn with random features. In this paper, we first review these techniques, providing a simple and self-contained analysis for one-hidden-layer networks. We then argue that despite the impressive positive results, random feature approaches are also inherently limited in what they can explain. In particular, we rigorously show that random features cannot be used to learn even a single ReLU neuron with standard Gaussian inputs, unless the network size (or magnitude of the weights) is exponentially large. Since a single neuron is learnable with gradient-based methods, we conclude that we are still far from a satisfying general explanation for the empirical success of neural networks.

研究动机与目标

将过参数化神经网络训练与随机特征方法之间的联系形式化。
识别随机特征方法在解释神经网络泛化性方面存在的固有局限。
证明使用随机特征逼近单个 ReLU 神经元，需要在输入维度 d 上呈指数级增长的特征数量或权重大小。
表明即使对于一般的随机特征（包括多层神经网络和基于核的特征），该局限性依然存在。
展示尽管在多项式函数上表现良好，随机特征仍无法捕捉神经网络的完整表征能力。

提出的方法

将过参数化网络的梯度基训练与随机特征学习形式化关联，其中第一层权重在初始化时被视作固定。
在标准高斯输入分布下，分析形式为 $ f_i(x) = f(Wx) $ 的随机特征的逼近能力，其中 $ W $ 为随机矩阵。
利用测度集中与反集中度论证，表明除非 $ r $ 或 $ \text{max}|u_i| $ 在 $ d $ 上呈指数级增长，否则任意 $ r $ 个随机特征的线性组合都无法良好逼近 ReLU 神经元。
将分析扩展至无结构假设的一般随机特征 $ f_i(x) $，证明对于任意此类特征的分布，均存在一个无法被高效逼近的 ReLU 神经元。
利用 ReLU 函数的齐次性，对目标权重向量 $ w^* $ 和偏置 $ b^* $ 进行缩放，从而在权重范数大小与所需逼近误差之间建立权衡。
通过随机特征采样上的高概率界，建立失败并非源于不良初始化，而是随机特征框架本身的固有缺陷。

实验结果

研究问题

RQ1在 $ \mathbb{R}^d $ 中，随机特征方法能否在标准高斯输入下高效逼近单个 ReLU 神经元？
RQ2在常数误差范围内逼近 ReLU 神经元所需的最少随机特征数量或权重大小是多少？
RQ3随机特征的局限性是否扩展至一般特征族，包括多层神经网络和核方法？
RQ4考虑到 ReLU 神经元已知可通过梯度下降学习，随机特征分析能否解释梯度基训练在学习 ReLU 神经元方面的成功？
RQ5在随机特征逼近中，目标权重向量的范数与所需特征复杂度之间是否存在权衡？

主要发现

对于任意分布下的 $ r $ 个随机特征 $ f_i(x) = f(Wx) $（$ W $ 为随机矩阵），若 ReLU 神经元 $ [\langle w^*, x \rangle + b^*]_+ $ 的逼近误差不超过 $ 1/50 $，则 $ r \cdot \max_i |u_i| \geq \frac{1}{200d^4} \exp(c_3 d) $，其中 $ c_3 $ 为某绝对常数，表明其对 $ d $ 呈指数依赖。
即使对于一般随机特征 $ f_i(x) $ 且满足 $ \|f_i\| \leq \exp(c_2 d) $ 的情形，也存在一个 ReLU 神经元，其 $ \|w^*\| = d^3 $ 且 $ |b^*| \leq 6d^4 + 1 $，除非 $ r \cdot \max_i |u_i| \geq \frac{1}{200d^4} \exp(c_3 d) $，否则无法在误差 $ 1/50 $ 内被逼近，且该结论以高概率成立。
该下界对任意特征族分布均成立，包括多层神经网络和基于核的特征，表明该局限性是随机特征范式本身的根本属性。
该结果意味着基于随机特征的分析无法解释梯度基训练在深层网络中的泛化性，因为单个 ReLU 神经元虽可通过梯度下降学习，却无法通过随机特征逼近。
存在一种权衡：对于 $ \|w^*\| = \alpha d $ 的 ReLU 神经元，所需 $ r \cdot \max_i |u_i| $ 的规模为 $ \Omega(\exp(c_3 d)/\alpha) $，表明目标范数越大，所需资源呈指数级增长。
失败并非源于初始化不佳，而是随机特征框架的固有缺陷，因为该结果在特征采样上以高概率成立。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。