Skip to main content
QUICK REVIEW

[論文レビュー] Sentence Encoders on STILTs: Supplementary Training on Intermediate Labeled-data Tasks

Jason Phang, Thibault Févry|arXiv (Cornell University)|Nov 2, 2018
Topic Modeling参考文献 29被引用数 258
ひとこと要約

STILTs は、教師なし事前学習とターゲットタスクのファインチューニングの間に、ラベル付き中間タスクでの補助的なトレーニング段階を追加し、特にデータ不足 setting において BERT、GPT、ELMo の GLUE 結果を改善します。

ABSTRACT

Pretraining sentence encoders with language modeling and related unsupervised tasks has recently been shown to be very effective for language understanding tasks. By supplementing language model-style pretraining with further training on data-rich supervised tasks, such as natural language inference, we obtain additional performance improvements on the GLUE benchmark. Applying supplementary training on BERT (Devlin et al., 2018), we attain a GLUE score of 81.8---the state of the art (as of 02/24/2019) and a 1.4 point improvement over BERT. We also observe reduced variance across random restarts in this setting. Our approach yields similar improvements when applied to ELMo (Peters et al., 2018a) and Radford et al. (2018)'s model. In addition, the benefits of supplementary training are particularly pronounced in data-constrained regimes, as we show in experiments with artificially limited training data.

研究の動機と目的

  • 転写学習のロバスト性と有効性を、データ量豊富なタスクでの二段階の教師あり事前学習を追加することで改善する動機づけ。
  • STILTs が GLUE で BERT、GPT、ELMo の三つのアーキテクチャに渡ってターゲットタスクの性能を改善するかどうかを評価する。
  • どの中間タスク(MNLI、SNLI、QQP、偽文検出)が利益をもたらすか、そしてどのデータ条件下であるかを特定する。
  • STILTs を用いる際のランダムリスタート間の安定性と分散を評価する。

提案手法

  • 無標注データ上でエンコーダを事前学習する(言語モデル化または同等の手法)。
  • ターゲットタスクのファインチューニングの前に、中間のラベル付きデータタスクで補助的なトレーニング段階(STILTs)を挿入する。
  • GLUE タスクでエンドツーエンドのファインチューニングを行い、STILTs の有無で BERT、GPT、ELMo を比較する。
  • 四つの中間タスクを使用: MNLI、SNLI、QQP、BooksCorpus に基づく偽文検出タスク。
  • 完全データ下と、データ制約下(ターゲットタスク例数1kおよび5k)で評価する。
  • GLUE 开発・テストセットでの結果を提供し、ランダムリスタート間の安定性を分析する。

実験結果

リサーチクエスチョン

  • RQ1STILTs は BERT、GPT、ELMo の GLUE タスクの性能を改善するか。
  • RQ2どの中間タスクが最も一貫して利益をもたらし、どのターゲットタスクまたはデータ条件でそうなるか。
  • RQ3STILTs は小データ設定でのトレーニングの安定性と退化的実行数にどう影響するか。
  • RQ4STILTs の利得は文ペアタスクで単一文タスクより大きいか。

主な発見

モデル平均A.ExCoLASSTMRPCQQPSTSMNLIQNLIRTEWNLI学習データサイズ
BERT78.378.160.693.587.3/91.083.1/78.690.2/89.877.174.056.3
  • STILTs は BERT、GPT、ELMo のほとんどの GLUE タスクで有意な利得をもたらし、データ不足の設定で特に大きな改善を示す。
  • STILTs による BERT は、執筆時点での全ベンチマークにおいて GLUE の最新の性能を達成。
  • STILTs はランダムリスタート間の分散を低減し、特に限定データ時の 24 層 BERT モデルで退化的実行を減少させる。
  • 文ペアタスクは補助トレーニングの恩恵を単一文タスクより受けやすい傾向があり(CoLAとSST は混成結果)、データ条件により差が出る。
  • いくつかの設定では GPT と ELMo の方が BERT より改善が大きいことがあり、構造的差異と事前学習目的による可能性がある。
  • 中間タスクの中では MNLI と SNLI が堅牢な利得を提供することが多い一方、偽文検出タスクは GPT により広く利益をもたらす;一部の中間タスクは特定のターゲットタスクで有害となる可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。