QUICK REVIEW
[论文解读] On Convergence and Generalization of Dropout Training
Poorya Mianjy, Raman Arora|arXiv (Cornell University)|Jan 1, 2020
Neural Networks and Applications被引用 6
一句话总结
本文在弱过参数化条件下分析了两层 ReLU 网络中 dropout 训练的性能,表明在逻辑斯蒂损失和具有间隔分离的数据分布下,dropout 在 $O(1/ heta)$ 次迭代内收敛至 $\epsilon$-次优测试误差。其主要贡献是在基于核的分离假设下,为 dropout 提供了一项泛化保证。
ABSTRACT
We study dropout in two-layer neural networks with rectified linear unit (ReLU) activations. Under mild overparametrization and assuming that the limiting kernel can separate the data distribution with a positive margin, we show that dropout training with logistic loss achieves $\epsilon$-suboptimality in test error in $O(1/\epsilon)$ iterations.
研究动机与目标
- 理解在过参数化两层 ReLU 神经网络中 dropout 训练的收敛性与泛化行为。
- 通过极限核,在弱过参数化和数据可分性条件下,建立测试误差收敛性的理论保证。
- 分析在核范式下,带有逻辑斯蒂损失的 dropout 训练如何在核空间存在正间隔时实现泛化。
- 弥合实际 dropout 训练与过参数化设置下理论收敛性之间的差距。
提出的方法
- 在隐藏单元数量随数据规模增长的弱过参数化条件下,分析两层 ReLU 网络。
- 利用网络在无限宽度极限下的极限核来刻画泛化性能。
- 假设极限核能够以正间隔分离数据分布,从而确保在核空间中的线性可分性。
- 在输出层应用逻辑斯蒂损失,并在此设置下推导测试误差的收敛速率。
- 采用核方法与泛化理论的技术,以迭代次数为变量,对测试误差进行上界估计。
- 证明在所述假设下,$\epsilon$-次优测试误差可在 $O(1/\epsilon)$ 次迭代内实现。
实验结果
研究问题
- RQ1在过参数化两层 ReLU 网络中,dropout 训练是否收敛至低测试误差,其收敛速度如何?
- RQ2极限核在 dropout 下实现泛化的角色是什么?
- RQ3核空间中的正间隔是否能保证 dropout 训练的快速收敛?
- RQ4逻辑斯蒂损失与 dropout 如何协同作用,以确保在过参数化设置下的泛化性能?
- RQ5测试误差收敛性对期望次优性水平 $\epsilon$ 的依赖关系如何?
主要发现
- 在弱过参数化条件下,使用逻辑斯蒂损失的 dropout 训练可在 $O(1/\epsilon)$ 次迭代内实现 $\epsilon$-次优测试误差。
- 当网络的极限核以正间隔分离数据分布时,该收敛速率可得到保证。
- 该结果特指在 dropout 和逻辑斯蒂损失下训练的两层 ReLU 网络。
- 该分析依赖于核范式,并假设足够的过参数化以确保稳定的核近似。
- 泛化并非通过显式正则化实现,而是通过核结构和训练动态的隐式归纳偏置实现。
- 理论框架将 dropout 训练与核方法联系起来,在可分性条件下提供了收敛保证。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。