Skip to main content
QUICK REVIEW

[论文解读] On Convergence and Generalization of Dropout Training

Poorya Mianjy, Raman Arora|arXiv (Cornell University)|Jan 1, 2020
Neural Networks and Applications被引用 6
一句话总结

本文在弱过参数化条件下分析了两层 ReLU 网络中 dropout 训练的性能,表明在逻辑斯蒂损失和具有间隔分离的数据分布下,dropout 在 $O(1/ heta)$ 次迭代内收敛至 $\epsilon$-次优测试误差。其主要贡献是在基于核的分离假设下,为 dropout 提供了一项泛化保证。

ABSTRACT

We study dropout in two-layer neural networks with rectified linear unit (ReLU) activations. Under mild overparametrization and assuming that the limiting kernel can separate the data distribution with a positive margin, we show that dropout training with logistic loss achieves $\epsilon$-suboptimality in test error in $O(1/\epsilon)$ iterations.

研究动机与目标

  • 理解在过参数化两层 ReLU 神经网络中 dropout 训练的收敛性与泛化行为。
  • 通过极限核,在弱过参数化和数据可分性条件下,建立测试误差收敛性的理论保证。
  • 分析在核范式下,带有逻辑斯蒂损失的 dropout 训练如何在核空间存在正间隔时实现泛化。
  • 弥合实际 dropout 训练与过参数化设置下理论收敛性之间的差距。

提出的方法

  • 在隐藏单元数量随数据规模增长的弱过参数化条件下,分析两层 ReLU 网络。
  • 利用网络在无限宽度极限下的极限核来刻画泛化性能。
  • 假设极限核能够以正间隔分离数据分布,从而确保在核空间中的线性可分性。
  • 在输出层应用逻辑斯蒂损失,并在此设置下推导测试误差的收敛速率。
  • 采用核方法与泛化理论的技术,以迭代次数为变量,对测试误差进行上界估计。
  • 证明在所述假设下,$\epsilon$-次优测试误差可在 $O(1/\epsilon)$ 次迭代内实现。

实验结果

研究问题

  • RQ1在过参数化两层 ReLU 网络中,dropout 训练是否收敛至低测试误差,其收敛速度如何?
  • RQ2极限核在 dropout 下实现泛化的角色是什么?
  • RQ3核空间中的正间隔是否能保证 dropout 训练的快速收敛?
  • RQ4逻辑斯蒂损失与 dropout 如何协同作用,以确保在过参数化设置下的泛化性能?
  • RQ5测试误差收敛性对期望次优性水平 $\epsilon$ 的依赖关系如何?

主要发现

  • 在弱过参数化条件下,使用逻辑斯蒂损失的 dropout 训练可在 $O(1/\epsilon)$ 次迭代内实现 $\epsilon$-次优测试误差。
  • 当网络的极限核以正间隔分离数据分布时,该收敛速率可得到保证。
  • 该结果特指在 dropout 和逻辑斯蒂损失下训练的两层 ReLU 网络。
  • 该分析依赖于核范式,并假设足够的过参数化以确保稳定的核近似。
  • 泛化并非通过显式正则化实现,而是通过核结构和训练动态的隐式归纳偏置实现。
  • 理论框架将 dropout 训练与核方法联系起来,在可分性条件下提供了收敛保证。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。