Skip to main content
QUICK REVIEW

[論文レビュー] Mixout: Effective Regularization to Finetune Large-scale Pretrained Language Models

Cheolhyoung Lee, Kyunghyun Cho|arXiv (Cornell University)|Sep 25, 2019
Topic Modeling参考文献 28被引用数 100
ひとこと要約

Mixout正則化は事前学習済みモデルに向けたL2ペナルティを適応させ、小規模データセット上で大規模事前学習済み言語モデルをファインチューニングする際の安定性と平均開発スコアを向上させる。

ABSTRACT

In natural language processing, it has been observed recently that generalization could be greatly improved by finetuning a large-scale language model pretrained on a large unlabeled corpus. Despite its recent success and wide adoption, finetuning a large pretrained language model on a downstream task is prone to degenerate performance when there are only a small number of training instances available. In this paper, we introduce a new regularization technique, to which we refer as "mixout", motivated by dropout. Mixout stochastically mixes the parameters of two models. We show that our mixout technique regularizes learning to minimize the deviation from one of the two models and that the strength of regularization adapts along the optimization trajectory. We empirically evaluate the proposed mixout and its variants on finetuning a pretrained language model on downstream tasks. More specifically, we demonstrate that the stability of finetuning and the average accuracy greatly increase when we use the proposed approach to regularize finetuning of BERT on downstream tasks in GLUE.

研究の動機と目的

  • 小規模な下流データセット上で大規模事前学習済み言語モデルのファインチューニングを安定化させる必要性を動機づける。
  • 学習を事前学習済みのパラメータベクトルへ誘導する適応的正則化子としてMixoutを導入する。
  • Mixoutが事前学習済みモデルに向かうL2正則化として機能することを理論的に正当化する。
  • MNIST様設定とGLUEタスクのBERT-LARGEファインチューニングで混合正則化の実証的評価を行い、安定性と性能を評価する。
  • さまざまなアブレーションを通じてMixoutをドロップアウトや他の正則化手法と比較し、その利点を明らかにする。

提案手法

  • Mixoutを、ブールマスクBernoulliを用いて現在のパラメータと事前学習済みターゲットのランダム混合として定義する。
  • Mixoutが事前学習済みパラメータに向かう適応的L2ペナルティに対応することを示し、強さはマスク確率pで制御される。
  • 期待損失を境界づける理論的結果(定理1およびコロラリー1.1)を提示し、MixoutをL2正則化項へ結びつける。
  • 事前学習済み層でドロップアウトの代わりにMixoutを適用し、最終出力層は正則化しない形で事前学習済みモデルに適用する。
  • 合成データ(EMNIST/MNIST)と実世界のNLPファインチューニング(GLUE上のBERT-LARGE)設定で経験的検証を行い、安定性と開発スコアの改善を示す。

実験結果

リサーチクエスチョン

  • RQ1ファインチューニング中にMixoutは事前学習済みパラメータベクトルへ理論的に正当化された適応的正則化を提供するか。
  • RQ2ファインチューニングの安定性と下流タスクの平均開発性能の観点で、Mixoutは標準的なドロップアウトやウェイトデカイとどう比較されるか。
  • RQ3Mixoutは、退化したファインチューニング結果を減らし、ランダムリスタートを通じて頑健性を改善できるか。
  • RQ4ファインチューニング中の事前学習済み層と非事前学習出力層の両方に対するMixoutの影響は何か。
  • RQ5異なるタスクタイプおよびデータレジーム(合成的なMNIST様データ対 GLUEタスク)でMixoutは有効か。

主な発見

  • Mixoutは事前学習済みパラメータに向かう適応的L2正則化子として機能し、強さは混合確率pとともに増加する。
  • MNIST様の実験では、Mixoutはファインチューニング後の重みをドロップアウトより事前学習済み重みに近づけ、理論的主張を検証する。
  • 小規模GLUEタスクのサブセットでMixoutを用いたBERT-LARGEのファインチューニングは、退化的で偶然レベルの結果を減らし、タスク間で平均Devスコアを向上させる。
  • アブレーション全般で、ドロップアウトと比較してMixoutは安定性とハイパーパラメータ(p)への頑健性を向上させ、特にデータ不足の領域で顕著。
  • 事前学習済み重みに対するウェイトデカイとMixoutを組み合わせると、いくつかのタスクで平均および最高のDevスコアがさらに向上する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。