Skip to main content
QUICK REVIEW

[論文レビュー] Multi-Task Deep Neural Networks for Natural Language Understanding

Xiaodong Liu, Pengcheng He|arXiv (Cornell University)|Jan 31, 2019
Topic Modeling参考文献 34被引用数 220
ひとこと要約

MT-DNN はマルチタスク学習と事前学習済み Transformer エンコーダを組み合わせ、普遍的な言語表現を学習し、GLUE で最先端を達成し、SNLI と SciTail のドメイン適応で Gains。

ABSTRACT

In this paper, we present a Multi-Task Deep Neural Network (MT-DNN) for learning representations across multiple natural language understanding (NLU) tasks. MT-DNN not only leverages large amounts of cross-task data, but also benefits from a regularization effect that leads to more general representations in order to adapt to new tasks and domains. MT-DNN extends the model proposed in Liu et al. (2015) by incorporating a pre-trained bidirectional transformer language model, known as BERT (Devlin et al., 2018). MT-DNN obtains new state-of-the-art results on ten NLU tasks, including SNLI, SciTail, and eight out of nine GLUE tasks, pushing the GLUE benchmark to 82.7% (2.2% absolute improvement). We also demonstrate using the SNLI and SciTail datasets that the representations learned by MT-DNN allow domain adaptation with substantially fewer in-domain labels than the pre-trained BERT representations. The code and pre-trained models are publicly available at https://github.com/namisan/mt-dnn.

研究の動機と目的

  • 関連した NLU タスク間で表現を共有するために、マルチタスク学習を活用する。
  • 普遍的なテキスト表現のために、事前学習済みの Transformer ベースのエンコーダをマルチタスク目的と統合する。
  • GLUE、SNLI、SciTail のベンチマークで高い性能を示す。
  • 限られたドメイン内ラベル付きデータでのドメイン適応の改善を示す。

提案手法

  • 共通の Lexicon Encoder と Transformer Encoder を使用して、タスク間で文脈化された表現を生成する。
  • 共有エンコーダにタスク固有の出力モジュール(分類、類似性、ランキング)を接続する。
  • 2 段階の手順で訓練する:事前学習(マスク言語モデリングと NSP)と GLUE タスク全体でのマルチタスク微調整。
  • 分類にはクロスエントロピー、回帰には MSE、ランキングにはペアワイズ損失など、タスク固有の損失関数を採用する。
  • NLI などのペアワイズテキスト分類タスクのために、SAN ベースの多段推論モジュールを組み込む。
  • 初期化された共有層(BERT LARGE)をマルチタスク目的でファインチューニングして MT-DNN を得る。

実験結果

リサーチクエスチョン

  • RQ1マルチタスク学習は、タスク固有モデルを超えて多様な NLU タスクの一般化をどのように改善できるか?
  • RQ2マルチタスク学習と BERT などの事前学習済み言語モデルを組み合わせることが、GLUE のタスク全体の性能にどのような影響を与えるか?
  • RQ3MT-DNN は非常に限られたドメイン内ラベル付きデータで効果的なドメイン適応を実現できるか?
  • RQ4NLI および QA 風タスクでの gains に最も寄与するアーキテクチャ要素(例:SAN モジュール、ランキング定式化)は何か?

主な発見

CoLASST-2MRPCSTS-BQQPMNLI-m/mmQNLIRTEWNLIAXScore
62.595.691.1/88.289.5/88.872.7/89.686.7/86.093.181.465.140.382.7
60.594.989.3/85.487.6/86.572.1/89.386.7/85.992.770.165.139.680.5
  • MT-DNN は GLUE の9タスク中8タスクで新たな最先端を達成し、総合 GLUE スコアを 82.7% に達した。
  • MT-DNN はドメイン適応を大幅に改善:SNLI が 91.6%、SciTail が 95.0% に達し、MT-DNN LARGE を用いた全訓練データで達成。
  • MT-DNN は限られたドメイン内データを持つタスクで一貫して BERT を上回り、マルチタスク学習の正則化と転移利点を強調する。
  • ファインチューニングなしでも、ほとんどの GLUE タスクで BERT LARGE を上回り、CoLA はデータセットの特性のため例外となる。
  • ST-DNN 変種は、タスク固有の出力モジュールと損失定式化(例:QNLI のランキング)が BERT ベースラインを超える利得に不可欠であることを示す。
  • MT-DNN は非常に小さなラベル付きデータセット(0.1%–1%)で堅牢なドメイン適応を実現し、BERT に比べ大きな精度向上を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。