[论文解读] Learning One-hidden-layer ReLU Networks via Gradient Descent
本论文证明,先进行张量初始化再进行梯度下降,可以在高斯输入下还原一隐藏层 ReLU 网络的真实参数,在统计误差内实现线性收敛,样本复杂度在线性输入维度 d 的比例下实现。它分析经验风险最小化并给出依赖于算法的保证。
We study the problem of learning one-hidden-layer neural networks with Rectified Linear Unit (ReLU) activation function, where the inputs are sampled from standard Gaussian distribution and the outputs are generated from a noisy teacher network. We analyze the performance of gradient descent for training such kind of neural networks based on empirical risk minimization, and provide algorithm-dependent guarantees. In particular, we prove that tensor initialization followed by gradient descent can converge to the ground-truth parameters at a linear rate up to some statistical error. To the best of our knowledge, this is the first work characterizing the recovery guarantee for practical learning of one-hidden-layer ReLU networks with multiple neurons. Numerical experiments verify our theoretical findings.
研究动机与目标
- 激发对在经验风险最小化下,梯度基学习浅层 ReLU 网络的理解。
- 表征在多神经元的的一隐藏层 ReLU 网络中,梯度下降在何时收敛到真实参数。
- 提供依赖于算法的恢复保证,并量化收敛速度和统计误差。
- 表明张量初始化使得无需再采样即可实现实际、收敛的学习。
提出的方法
- 将学习表述为对一隐藏层 ReLU 网络的经验平方损失最小化。
- 使用张量初始化获得一个接近真实权重 W* 的良好起点(基于现有工作)。
- 对经验损失应用梯度下降,无需数据重采样(不需要分割)。
- 建立经验损失梯度与总体损失梯度之间的统一收敛界,为收敛性分析提供依据。
- 证明收敛到 W*,在统计误差内线性收敛,样本复杂度在输入维度 d 上线性扩展(对数因子除外)。
- 推导经验损失的明确梯度表达式,以指导优化分析。
实验结果
研究问题
- RQ1梯度下降能否在高斯输入下通过经验风险最小化恢复一隐藏层 ReLU 网络的真实参数?
- RQ2为保证线性收敛到真实参数,需要怎样的初始化和样本复杂度?
- RQ3在接近真值区域,经验梯度与总体梯度有何比较,它如何影响收敛?
- RQ4张量初始化结合梯度下降是否无需重采样即可达到 W*,在统计误差范围内?
主要发现
- 结合张量初始化的梯度下降在统计误差范围内实现对真实参数的线性收敛。
- 统计误差取决于样本量 N、维度 d、隐藏神经元数量 K,以及噪声水平 ν。
- 在高斯输入假设下,样本复杂度在对数因子下线性增长于 d。
- 经验和总体损失之间的统一梯度收敛界使分析无需数据重采样成为可能。
- 理论结果得到数值实验的支持,证实了收敛和恢复行为。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。