[論文レビュー] A Simple but Tough-to-Beat Data Augmentation Approach for Natural Language Understanding and Generation
本論文では Cutoff を紹介します。入力埋め込みの一部を削除して部分ビューを作成する簡易なデータ拡張法と、Jensen-Shannon 発散の一貫性損失を組み合わせ、敵対的学習より低いオーバーヘッドで GLUE と機械翻訳に対して競争力のあるまたは最先端の成果を達成します。
Adversarial training has been shown effective at endowing the learned representations with stronger generalization ability. However, it typically requires expensive computation to determine the direction of the injected perturbations. In this paper, we introduce a set of simple yet effective data augmentation strategies dubbed cutoff, where part of the information within an input sentence is erased to yield its restricted views (during the fine-tuning stage). Notably, this process relies merely on stochastic sampling and thus adds little computational overhead. A Jensen-Shannon Divergence consistency loss is further utilized to incorporate these augmented samples into the training objective in a principled manner. To verify the effectiveness of the proposed strategies, we apply cutoff to both natural language understanding and generation problems. On the GLUE benchmark, it is demonstrated that cutoff, in spite of its simplicity, performs on par or better than several competitive adversarial-based approaches. We further extend cutoff to machine translation and observe significant gains in BLEU scores (based upon the Transformer Base model). Moreover, cutoff consistently outperforms adversarial training and achieves state-of-the-art results on the IWSLT2014 German-English dataset.
研究の動機と目的
- 重い計算コストを伴わずに一般化能力を高めることによって、大規模事前学習言語モデルの堅牢なファインチューニングを動機づける。
- 入力埋め込みレベルで情報を消去する、単純で構造化されたデータ拡張戦略を開発する。
- 原則に基づく一貫性目的関数を通じて拡張サンプルを統合し、ビュー間の予測を改善する。
- 自然言語理解ベンチマークと機械翻訳タスクでの有効性を実証する。
提案手法
- Cutoff を提案し、部分ビューを作成する:トークンカットオフ(トークン埋め込みを0にする)、特徴カットオフ(埋め込み次元を0にする)、スパンカットオフ(連続したスパンを0にする)。
- 元のビューと複数の拡張ビュー間の予測を揃えるために Jensen-Shannon 発散の一貫性損失を用いる。
- 拡張サンプルに対するクロスエントロピー損失と訓練目的関数内のJS発散項を組み合わせる。
- 入力と出力の両方を拡張して、条件付きテキスト生成へアプローチを拡張する。
- 敵対的学習と比較して計算オーバーヘッドを比較し、必要な後ろ向きパスが少ないことを強調する。
実験結果
リサーチクエスチョン
- RQ1Cutoff の拡張は、敵対的手法や他のデータ拡張手法と比べて NLU タスクの一般化性能を向上させるか?
- RQ2Cutoff はニューラル機械翻訳に効果的に拡張でき、最先端の結果をもたらすか?
- RQ3異なるカットオフタイプと拡張強度が性能に与える影響は何か?
- RQ4JS発散の一貫性損失を組み込むことで、標準CE損失より追加の改善が得られるか?
- RQ5Cutoff は一般的な敵対的訓練手法より計算効率が高いか?
主な発見
- Cutoff のバリアントは、GLUE 開発セットで RoBERTa-base および RoBERTa-large のベースラインに対して一貫して ALUM を上回る。
- Span cutoff はGLUEタスク全般で最も強い性能を示すことが多い。
- 機械翻訳では、JS損失を用いたCutoffが WMT14 English-German および IWSLT2014 German-English でいくつかの敵対的ベースラインより高い BLEU スコアを達成。
- トークンカットオフは Cutoff バリアントの中で WMT14 English-German の最良BLEUを達成。JS loss で全体のBLEUがさらに向上。
- JS発散損失は一般に MNLI dev の精度を改善し、ベータが約1.0のときアブレーションで最良の結果を示す。
- Cutoff は追加の逆伝播パスを必要とせず、前方計算時間のオーバーヘッドも控えめで、多くの敵対的手法よりも効率的である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。