QUICK REVIEW

[论文解读] Distribution-Specific Hardness of Learning Neural Networks

Ohad Shamir|arXiv (Cornell University)|Sep 5, 2016

Stochastic Gradient Optimization Techniques参考文献 12被引用 23

一句话总结

本文研究了对输入分布或目标函数的假设是否能确保使用基于梯度的方法对浅层 ReLU 神经网络实现可 tractable 学习。结果表明，仅凭‘良好’的输入分布或‘良好’的目标函数均不足以保证可学习性，因为在标准优化启发式方法下，两者仍可能导致计算困难。

ABSTRACT

Although neural networks are routinely and successfully trained in practice using simple gradient-based methods, most existing theoretical results are negative, showing that learning such networks is difficult, in a worst-case sense over all data distributions. In this paper, we take a more nuanced view, and consider whether specific assumptions on the "niceness" of the input distribution, or "niceness" of the target function (e.g. in terms of smoothness, non-degeneracy, incoherence, random choice of parameters etc.), are sufficient to guarantee learnability using gradient-based methods. We provide evidence that neither class of assumptions alone is sufficient: On the one hand, for any member of a class of "nice" target functions, there are difficult input distributions. On the other hand, we identify a family of simple target functions, which are difficult to learn even if the input distribution is "nice". To prove our results, we develop some tools which may be of independent interest, such as extending Fourier-based hardness techniques developed in the context of statistical queries \cite{blum1994weakly}, from the Boolean cube to Euclidean space and to more general classes of functions.

研究动机与目标

理解对输入分布或目标函数的自然假设是否能使神经网络学习在计算上变得可行。
研究在现实的分布和函数假设下，标准基于梯度的优化方法是否能成功学习浅层 ReLU 网络。
确定对线性变换的不变性或输入分布的平滑性是否能消除神经网络学习中的困难性。
探索损失景观的几何特性（如缺乏梯度信号）是否可能在不存在不良局部极小值的情况下阻止学习。

提出的方法

将学习问题约化为一个已知的困难问题：学习半空间的交集，表明不变算法无法区分最坏情况与平均情况。
应用从布尔立方体扩展到欧氏空间的基于傅里叶的技术，分析损失函数的谱特性和梯度信息。
使用统计查询框架表明，对线性变换不变的算法无法在所有输入分布下学习某些目标函数。
分析形式为 $\psi(\langle\mathbf{w},\mathbf{x}\rangle)$ 的目标函数的梯度，其中 $\psi$ 为周期函数，表明梯度中包含可忽略的信号。
利用切比雪夫不等式和方差界，证明在特定条件下，迭代优化中预言机的响应与真实目标函数无关。
提出一个框架，分析真实梯度与经验梯度之间的期望梯度不匹配，表明小方差意味着关于目标函数的信息泄漏缺失。

实验结果

研究问题

RQ1当输入分布平滑且非退化时，标准基于梯度的方法能否学习浅层 ReLU 网络？
RQ2如果目标函数简单且行为良好（例如，参数上平滑或类似随机），是否能保证可学习性？
RQ3对线性变换不变的算法（例如，经过白化或预条件处理）在学习特定目标函数时是否仍面临计算困难？
RQ4损失景观的几何特性（如平坦性或缺乏梯度信号）是否可能在不存在虚假局部极小值的情况下阻止学习？
RQ5在何种条件下，目标函数的梯度会无法携带关于底层目标函数的信息？

主要发现

对于浅层 ReLU 网络中某一类固定且简单的目标函数，存在输入分布使得任何线性不变算法都无法在多项式时间内学习它。
即使存在过参数化和非正规学习，基于梯度的方法仍无法学习形式为 $\mathbf{x} \mapsto \psi(\langle\mathbf{w},\mathbf{x}\rangle)$ 的目标函数，其中 $\psi$ 为周期函数，即使输入分布为高斯分布或高斯混合分布。
对于此类周期函数，目标函数的梯度几乎不包含关于目标函数的信号，导致标准梯度方法无法实现优化。
困难性并非源于局部极小值或鞍点，而是源于损失景观的几何结构，其在几乎处处平坦且无信息。
如果梯度估计的方差较小，则对线性变换不变的算法无法提取关于真实目标函数 $\mathbf{w}^\star$ 的信息，这通过切比雪夫不等式和基于预言机的分析得到证明。
该分析将基于傅里叶的困难性技术从布尔立方体扩展到欧氏空间，为在连续域中研究一般函数类提供了新工具。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。