QUICK REVIEW

[論文レビュー] R-Drop: Regularized Dropout for Neural Networks

Xiaobo Liang, Lijun Wu|arXiv (Cornell University)|Jun 28, 2021

Advanced Neural Network Applications参考文献 74被引用数 306

ひとこと要約

R-Drop は dropout を正則化し、双方向 KL 散度を用いて2つの dropout によって得られるサブモデル出力の一貫性を強制することで、NLP と CV タスク全体の一般化を向上させ、いくつかの翻訳ベンチマークで最先端の結果を達成します。

ABSTRACT

Dropout is a powerful and widely used technique to regularize the training of deep neural networks. In this paper, we introduce a simple regularization strategy upon dropout in model training, namely R-Drop, which forces the output distributions of different sub models generated by dropout to be consistent with each other. Specifically, for each training sample, R-Drop minimizes the bidirectional KL-divergence between the output distributions of two sub models sampled by dropout. Theoretical analysis reveals that R-Drop reduces the freedom of the model parameters and complements dropout. Experiments on $\bf{5}$ widely used deep learning tasks ($\bf{18}$ datasets in total), including neural machine translation, abstractive summarization, language understanding, language modeling, and image classification, show that R-Drop is universally effective. In particular, it yields substantial improvements when applied to fine-tune large-scale pre-trained models, e.g., ViT, RoBERTa-large, and BART, and achieves state-of-the-art (SOTA) performances with the vanilla Transformer model on WMT14 English$ o$German translation ($\bf{30.91}$ BLEU) and WMT14 English$ o$French translation ($\bf{43.95}$ BLEU), even surpassing models trained with extra large-scale data and expert-designed advanced variants of Transformer models. Our code is available at GitHub{\url{https://github.com/dropreg/R-Drop}}.

研究の動機と目的

深層ネットワークにおける dropout によって生じる訓練と推論の不整合を動機づけて対処する。
2つの dropout が誘発するサブモデル出力の一貫性を強制する単純な正則化手法を提案する。
R-Drop が訓練と推論の不整合をどう低減するかを理論的に分析する。
大規模事前学習モデルを含むNLPおよびCVタスク全般における普遍的な有効性を実証的に示す。

提案手法

各訓練サンプルについて、異なる dropout の実装で2回の前方伝播を実行し、P1(y|x) と P2(y|x) を取得する。
標準の負の対数尤度損失に加えて、P1とP2の双方向KL散度を最小化する。
最終目的は、両方の伝播からのNLL損失を組み合わせ、アルファ重み付きKL項を加えたものである：L = L_NLL1 + L_NLL2 + (alpha/2)[KL(P1||P2) + KL(P2||P1)]。
同じミニバッチ内で2回の伝播を計算するために、バッチ内の各入力を複製して1つの訓練ステップを提供する。
アルゴリズム的には、各サンプルごとに2つの dropout サブモデルで訓練し、結合損失を最小化してパラメータを更新する。
理論分析は、制約が線形モデルにおいてサブモデル損失と全モデル損失の不整合を制限することを示している。

実験結果

リサーチクエスチョン

RQ12つの dropout 誘導サブモデル間の出力一貫性を強制することは、タスク間の一般化を改善するか。
RQ2R-Drop は訓練と推論の不整合および正則化強度にどう影響するか。
RQ3追加データやアーキテクチャ変更なしで、素の Transformer および大規模前提モデルで最先端の結果を得られるか。
RQ4多様なドメインにわたって訓練時に R-Drop を適用する際の安定性とコストの影響は何か？

主な発見

R-Drop はNLP、言語モデリング、画像分類を含む5つのタスクおよび18のデータセットで大幅な改善をもたらす。
素の Transformer を用いた WMT14 En→De と En→Fr の翻訳では、R-Drop がそれぞれ 30.91 BLEU と 43.95 BLEU を達成し、従来のSOTAを上回る。
GLUE で、RD を用いた RoBERTa-large は平均 89.73 を達成し、XLNet-large、ELECTRA-large などの強力なベースラインを上回る。
CNN/Daily Mail 要約では BART+RD が最先端の ROUGE-L を達成し、ROUGE-1/2 は BART より約0.3ポイント改善。
Wikitext-103 言語モデリングでは、RD は Transformer および Adaptive Input Transformer のベースラインで困惑度を改善（例：Transformer: valid 25.76 から 23.97 へ; test 26.62 から 24.94 へ）。
画像分類では ViT モデルが RD で精度を向上させる（例：ViT-B/16: CIFAR-100 92.64→93.29; ImageNet 83.97→84.38）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。