QUICK REVIEW

[論文レビュー] Intermediate-Task Transfer Learning with Pretrained Models for Natural Language Understanding: When and Why Does It Work?

Yada Pruksachatkun, Jason Phang|arXiv (Cornell University)|May 1, 2020

Topic Modeling参考文献 53被引用数 52

ひとこと要約

本論文は110の中間タスク対と25の probing タスクを用いた RoBERTa の大規模研究を行い、中間-task 学習が自然言語理解にいつ、なぜ役立つのかを理解することを目的としています。高レベルの推論タスクは一般に有益であり、事前学習の忘却が転移を制限する可能性がある、という結論を見出しています。

ABSTRACT

While pretrained models such as BERT have shown large gains across natural language understanding tasks, their performance can be improved by further training the model on a data-rich intermediate task, before fine-tuning it on a target task. However, it is still poorly understood when and why intermediate-task training is beneficial for a given target task. To investigate this, we perform a large-scale study on the pretrained RoBERTa model with 110 intermediate-target task combinations. We further evaluate all trained models with 25 probing tasks meant to reveal the specific skills that drive transfer. We observe that intermediate tasks requiring high-level inference and reasoning abilities tend to work best. We also observe that target task performance is strongly correlated with higher-level abilities such as coreference resolution. However, we fail to observe more granular correlations between probing and target task performance, highlighting the need for further work on broad-coverage probing benchmarks. We also observe evidence that the forgetting of knowledge learned during pretraining may limit our analysis, highlighting the need for further work on transfer learning methods in these settings.

研究の動機と目的

広範なターゲットNLUタスクに最も有益な中間タスクを特定する。
中間タスク訓練中に習得され、ターゲットへ転移する言語的スキルを特定する。
プロービングタスクの性能がターゲットタスクの改善とどのように相関するかを調べ、転移を説明する。
中間タスクのデータセット規模が転移の差を説明するかどうかを評価する。
転移学習中の破滅的忘却などの潜在的な制約を探る。

提案手法

11個の中間タスクそれぞれについてRoBERTaを個別に微調整する。
中間タスクで学習したモデルを、それぞれ10のターゲットタスクと25のプロービングタスクに対して別々に微調整する。
中間学習なしのベースラインと比較してターゲットタスクの性能を評価して転移を評価する。
各タスクとベースラインで1260の観測を得るために3回のランダムリスタートを用いる。
学習率とドロップアウトのハイパーパラメータスイープを適用し、タスクごとに最良のパラメータを固定する。
RoBERTa-Largeを使用し、先行研究と一致する標準的な微調整手順を適用する。

実験結果

リサーチクエスチョン

RQ1どの中間タスクが多様なターゲットタスク全体の性能を広く向上させるか。
RQ2プロービングタスクで明らかになるように、中間タスクはターゲットタスクを支援するどんな言語スキルを教えるか。
RQ3プロービングタスクの性能はターゲットタスクの改善とどのように関連し、転移の利点を説明できるか。
RQ4中間タスクのデータセットサイズや事前学習の忘却が転移効果を制約するか。

主な発見

高レベルの推論と常識推論を要するタスクは、良い中間タスクになる傾向がある。
MNLIおよびCosmosQA風のタスクは多くのターゲットで正の転移を示す；SocialIQAはしばしば負の転移をもたらす。
低レベルの入力保持スキルはターゲットタスクの性能とほとんど相関せず、一方でMLM類似タスクに関連する高レベルの能力はより相関が高い。
プロービングの相関は、意味的・共参照関連のプローブがターゲット性能と相関する一方で、多くのSentEvalプローブはそうではないことを示す。
事前学習の破滅的忘却が転移を制限する可能性があり、中間訓練中にMLM目的を統合すると忘却を緩和できる可能性がある。
中間タスク訓練では退化的実行は起こりにくいが、極端に負の転移が一部のケースで退化性を高めることがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。