QUICK REVIEW

[论文解读] On Convergence and Generalization of Dropout Training

Poorya Mianjy, Raman Arora|arXiv (Cornell University)|Jan 1, 2020

Neural Networks and Applications被引用 6

一句话总结

本文在弱过参数化条件下分析了两层 ReLU 网络中 dropout 训练的性能，表明在逻辑斯蒂损失和具有间隔分离的数据分布下，dropout 在 $O(1/ heta)$ 次迭代内收敛至 $\epsilon$-次优测试误差。其主要贡献是在基于核的分离假设下，为 dropout 提供了一项泛化保证。

ABSTRACT

We study dropout in two-layer neural networks with rectified linear unit (ReLU) activations. Under mild overparametrization and assuming that the limiting kernel can separate the data distribution with a positive margin, we show that dropout training with logistic loss achieves $\epsilon$-suboptimality in test error in $O(1/\epsilon)$ iterations.

研究动机与目标

理解在过参数化两层 ReLU 神经网络中 dropout 训练的收敛性与泛化行为。
通过极限核，在弱过参数化和数据可分性条件下，建立测试误差收敛性的理论保证。
分析在核范式下，带有逻辑斯蒂损失的 dropout 训练如何在核空间存在正间隔时实现泛化。
弥合实际 dropout 训练与过参数化设置下理论收敛性之间的差距。

提出的方法

在隐藏单元数量随数据规模增长的弱过参数化条件下，分析两层 ReLU 网络。
利用网络在无限宽度极限下的极限核来刻画泛化性能。
假设极限核能够以正间隔分离数据分布，从而确保在核空间中的线性可分性。
在输出层应用逻辑斯蒂损失，并在此设置下推导测试误差的收敛速率。
采用核方法与泛化理论的技术，以迭代次数为变量，对测试误差进行上界估计。
证明在所述假设下，$\epsilon$-次优测试误差可在 $O(1/\epsilon)$ 次迭代内实现。

实验结果

研究问题

RQ1在过参数化两层 ReLU 网络中，dropout 训练是否收敛至低测试误差，其收敛速度如何？
RQ2极限核在 dropout 下实现泛化的角色是什么？
RQ3核空间中的正间隔是否能保证 dropout 训练的快速收敛？
RQ4逻辑斯蒂损失与 dropout 如何协同作用，以确保在过参数化设置下的泛化性能？
RQ5测试误差收敛性对期望次优性水平 $\epsilon$ 的依赖关系如何？

主要发现

在弱过参数化条件下，使用逻辑斯蒂损失的 dropout 训练可在 $O(1/\epsilon)$ 次迭代内实现 $\epsilon$-次优测试误差。
当网络的极限核以正间隔分离数据分布时，该收敛速率可得到保证。
该结果特指在 dropout 和逻辑斯蒂损失下训练的两层 ReLU 网络。
该分析依赖于核范式，并假设足够的过参数化以确保稳定的核近似。
泛化并非通过显式正则化实现，而是通过核结构和训练动态的隐式归纳偏置实现。
理论框架将 dropout 训练与核方法联系起来，在可分性条件下提供了收敛保证。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。