Skip to main content
QUICK REVIEW

[论文解读] Dropout Training as Adaptive Regularization

Stefan Wager, Sida Wang|arXiv (Cornell University)|Jul 4, 2013
Machine Learning and Data Classification参考文献 23被引用 273
一句话总结

本文将dropout训练框架化为广义线性模型中的自适应正则化,表明其在对特征进行逆对角Fisher信息矩阵缩放后,与L2正则化一阶等价。该研究建立了与AdaGrad的联系,并提出了一种半监督方法,利用未标记数据改进正则化器,在IMDB评论数据集上实现了最先进性能。

ABSTRACT

Dropout and other feature noising schemes control overfitting by artificially corrupting the training data. For generalized linear models, dropout performs a form of adaptive regularization. Using this viewpoint, we show that the dropout regularizer is first-order equivalent to an L2 regularizer applied after scaling the features by an estimate of the inverse diagonal Fisher information matrix. We also establish a connection to AdaGrad, an online learning algorithm, and find that a close relative of AdaGrad operates by repeatedly solving linear dropout-regularized problems. By casting dropout as regularization, we develop a natural semi-supervised algorithm that uses unlabeled data to create a better adaptive regularizer. We apply this idea to document classification tasks, and show that it consistently boosts the performance of dropout training, improving on state-of-the-art results on the IMDB reviews dataset.

研究动机与目标

  • 理解dropout在控制过拟合方面取得成功背后的理论机制。
  • 将dropout形式化为广义线性模型中的一种自适应正则化形式。
  • 建立dropout训练与AdaGrad优化算法之间的联系。
  • 开发一种利用未标记数据改进dropout正则化器的半监督学习方法。
  • 实证证明所提出方法在标准基准文本分类数据集上优于现有最先进方法。

提出的方法

  • 本文推导出,dropout训练在对特征进行估计的对角Fisher信息矩阵的逆平方根变换后,与L2正则化一阶等价。
  • 研究表明,dropout正则化器在逻辑回归中倾向于稀有但有用的特征,类似于自适应正则化。
  • 识别出一种与AdaGrad算法密切相关的方法,该方法在每次迭代中求解线性化后的dropout正则化问题。
  • 通过结合标记数据和未标记数据构建半监督正则化器,其中未标记数据通过估计的惩罚函数影响正则化强度。
  • 该方法使用正则化器的二次近似进行优化,并通过交叉验证调整未标记数据的折扣因子。
  • 该方法为完全判别式方法,无需拟合生成模型。

实验结果

研究问题

  • RQ1dropout训练在广义线性模型中的正则化关系如何?
  • RQ2dropout能否被解释为一种自适应L2正则化形式?如果是,自适应缩放如何确定?
  • RQ3dropout训练与AdaGrad优化算法之间存在何种联系?
  • RQ4能否利用未标记数据改进dropout训练中的正则化?如果可以,如何实现?
  • RQ5所提出的半监督方法是否能在标准基准数据集上带来性能提升?

主要发现

  • 在对特征进行估计的对角Fisher信息矩阵的逆平方根缩放后,dropout训练与L2正则化一阶等价。
  • 该方法通过基于特征统计特性的自适应正则化改善泛化性能,在逻辑回归中倾向于稀有但有用的特征。
  • 一种与AdaGrad密切相关的方法被证明可在每一步求解线性化后的dropout正则化问题,揭示了两者之间的深层联系。
  • 利用未标记数据优化正则化器在多个文档分类任务中均一致地提升了性能。
  • 在IMDB评论数据集上,半监督dropout方法实现了最先进准确率,优于先前方法。
  • 即使在大量标记数据下,性能提升依然可观,表明未标记数据为正则化器提供了有意义的归纳偏置。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。