QUICK REVIEW

[论文解读] Fine-Grained Analysis of Optimization and Generalization for Overparameterized Two-Layer Neural Networks

Sanjeev Arora, Simon S. Du|arXiv (Cornell University)|Jan 24, 2019

Stochastic Gradient Optimization Techniques参考文献 73被引用 261

一句话总结

本文分析了一个宽而过参数化的两层 ReLU 网络在梯度下降训练过程中的训练动力学与泛化，揭示标签结构和数据相关的 Gram 矩阵如何影响优化速度与泛化界限。

ABSTRACT

Recent works have cast some light on the mystery of why deep nets fit any data and generalize despite being very overparametrized. This paper analyzes training and generalization for a simple 2-layer ReLU net with random initialization, and provides the following improvements over recent works: (i) Using a tighter characterization of training speed than recent papers, an explanation for why training a neural net with random labels leads to slower training, as originally observed in [Zhang et al. ICLR'17]. (ii) Generalization bound independent of network size, using a data-dependent complexity measure. Our measure distinguishes clearly between random labels and true labels on MNIST and CIFAR, as shown by experiments. Moreover, recent papers require sample complexity to increase (slowly) with the size, while our sample complexity is completely independent of the network size. (iii) Learnability of a broad class of smooth functions by 2-layer ReLU nets trained via gradient descent. The key idea is to track dynamics of training and generalization via properties of a related kernel.

研究动机与目标

解释为什么在过参数化的两层 ReLU 网络上，梯度下降在真实标签数据上的收敛速度快于随机标签。
构建一个基于数据的、与网络宽度无关的泛化边界，依赖于由 ReLU 核推导的 Gram 矩阵。
阐明通过梯度下降训练的两层 ReLU 网络可学习的一大类函数。
使用一个仅从数据即可计算的复杂性度量区分真实标签与随机标签。

提出的方法

将一个两层 ReLU 网络进行随机初始化并固定第二层权重。
通过从 ReLU 核推导的 Gram 矩阵 H^∞ 来分析训练动力学。
将梯度下降更新与作用在标签向量 y 上的 (I - η H^∞) 的幂法联系起来。
给出一个基于训练中参数移动以及 Rademacher 复杂度论证的基于数据的泛化界限。
引入一个数据相关的复杂性量度 y^T (H^∞)^{-1} y / n，可在不训练的情况下从数据计算。
证明该界限与隐藏层宽度 m 无关。

实验结果

研究问题

RQ1为什么在过参数化的两层网络中，使用真实标签进行训练的梯度下降比使用随机标签的收敛更快？
RQ2我们能否推导出一个不依赖于网络宽度且仅基于数据就能区分真实标签与随机标签的数据相关泛化界限？
RQ3通过过参数化下的梯度下降训练，两层 ReLU 网络可以学习哪一类函数？
RQ4ReLU 引起的核 Gram 矩阵如何影响优化动力学与泛化？

主要发现

梯度下降的收敛速度由标签在 Gram 矩阵 H^∞ 的特征向量上的投影决定，当标签与前几个特征向量对齐时，收敛更快。
一种精确的非正式表征表明训练损失类似于 (I - η H^∞)^k y 的范数平方，便于对不同标签的收敛进行细致比较。
构建了一个基于 y^T (H^∞)^{-1} y 的数据相关泛化界限，并且与隐藏单元数目 m 无关。
该泛化界限适用于任何数据标签，不需要地面真值网络，并且在 MNIST 和 CIFAR 实验中能够区分真实标签和随机标签。
该界限意味着通过梯度下降训练的两层 ReLU 网络可以学习一大类光滑函数，且对光滑性的要求比以往工作更弱。
实验表明，随着随机标签比例的变化，所提出的复杂性量度与观察到的泛化性能一致。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。