QUICK REVIEW

[论文解读] R-Drop: Regularized Dropout for Neural Networks

Xiaobo Liang, Lijun Wu|arXiv (Cornell University)|Jun 28, 2021

Advanced Neural Network Applications参考文献 74被引用 306

一句话总结

R-Drop 通过对两个 dropout 生成的子模型输出使用双向 KL 散度来强制一致性，从而对 dropout 进行正则化，在 NLP 与 CV 任务上提升泛化能力，并在某些翻译基准上达到最新的最优结果。

ABSTRACT

Dropout is a powerful and widely used technique to regularize the training of deep neural networks. In this paper, we introduce a simple regularization strategy upon dropout in model training, namely R-Drop, which forces the output distributions of different sub models generated by dropout to be consistent with each other. Specifically, for each training sample, R-Drop minimizes the bidirectional KL-divergence between the output distributions of two sub models sampled by dropout. Theoretical analysis reveals that R-Drop reduces the freedom of the model parameters and complements dropout. Experiments on $\bf{5}$ widely used deep learning tasks ($\bf{18}$ datasets in total), including neural machine translation, abstractive summarization, language understanding, language modeling, and image classification, show that R-Drop is universally effective. In particular, it yields substantial improvements when applied to fine-tune large-scale pre-trained models, e.g., ViT, RoBERTa-large, and BART, and achieves state-of-the-art (SOTA) performances with the vanilla Transformer model on WMT14 English$ o$German translation ($\bf{30.91}$ BLEU) and WMT14 English$ o$French translation ($\bf{43.95}$ BLEU), even surpassing models trained with extra large-scale data and expert-designed advanced variants of Transformer models. Our code is available at GitHub{\url{https://github.com/dropreg/R-Drop}}.

研究动机与目标

动机并解决深度网络中 dropout 所造成的训练-推理不一致性。
提出一种简单的正则化方法，强制两次 dropout 产生的子模型输出之间的一致性。
理论分析 R-Drop 如何降低训练与推理之间的不一致性。
在包括大规模预训练模型在内的 NLP 和 CV 任务上实证展示其普遍有效性。

提出的方法

对于每个训练样本，执行两次前向传播，使用不同的 dropout 实例化以获得 P1(y|x) 和 P2(y|x)。
在标准的负对数似然损失之外，最小化 P1 与 P2 之间的双向 KL 散度。
最终目标将两次前向传播的 NLL 损失与一个 alpha 加权的 KL 项结合起来：L = L_NLL1 + L_NLL2 + (alpha/2)[KL(P1||P2) + KL(P2||P1)]。
通过在同一小批量中复制每个输入来在同一训练步中完成两次前向传播。
在算法上，对每个样本使用两个 dropout 子模型进行训练，并通过最小化组合损失来更新参数。
理论分析表明该约束在线性模型中界定了子模型损失与全模型损失之间的不一致性。

实验结果

研究问题

RQ1在两个 dropout 产生的子模型之间强制输出一致性是否会提高跨任务的泛化能力？
RQ2R-Drop 如何影响训练-推理不一致性和正则化强度？
RQ3R-Drop 是否能够在无需额外数据或架构改动的情况下为原生 Transformer 与大型预训练模型带来最先进的结果？
RQ4在跨越不同领域的训练中应用 R-Drop 的稳定性和成本含义是什么？

主要发现

R-Drop 在包括 NLP、语言建模和图像分类在内的 5 个任务和 18 个数据集上带来显著改进。
在 WMT14 英语到德语和英语到法语翻译（使用原生 Transformer）中，R-Drop 分别达到 30.91 BLEU 和 43.95 BLEU，超过先前的 SOTA。
在 GLUE 中，RoBERTa-large 配合 RD 达到 89.73 的平均分，并且超越若干强基线（如 XLNet-large、ELECTRA-large）。
在 CNN/Daily Mail 摘要中，BART+RD 实现了最先进的 ROUGE-L，且 ROUGE-1/2 相比 BART 提升约 0.3 点。
在 Wikitext-103 语言建模中，RD 提升了 Transformer 和自适应输入 Transformer 基线的困惑度（如 Transformer：有效集 25.76 提升到 23.97；测试集 26.62 提升到 24.94）。
在图像分类方面，ViT 模型在 RD 下获得准确率提升（如 ViT-B/16：CIFAR-100 92.64→93.29；ImageNet 83.97→84.38）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。