[論文レビュー] Multi-Task Deep Neural Networks for Natural Language Understanding
MT-DNN はマルチタスク学習と事前学習済み Transformer エンコーダを組み合わせ、普遍的な言語表現を学習し、GLUE で最先端を達成し、SNLI と SciTail のドメイン適応で Gains。
In this paper, we present a Multi-Task Deep Neural Network (MT-DNN) for learning representations across multiple natural language understanding (NLU) tasks. MT-DNN not only leverages large amounts of cross-task data, but also benefits from a regularization effect that leads to more general representations in order to adapt to new tasks and domains. MT-DNN extends the model proposed in Liu et al. (2015) by incorporating a pre-trained bidirectional transformer language model, known as BERT (Devlin et al., 2018). MT-DNN obtains new state-of-the-art results on ten NLU tasks, including SNLI, SciTail, and eight out of nine GLUE tasks, pushing the GLUE benchmark to 82.7% (2.2% absolute improvement). We also demonstrate using the SNLI and SciTail datasets that the representations learned by MT-DNN allow domain adaptation with substantially fewer in-domain labels than the pre-trained BERT representations. The code and pre-trained models are publicly available at https://github.com/namisan/mt-dnn.
研究の動機と目的
- 関連した NLU タスク間で表現を共有するために、マルチタスク学習を活用する。
- 普遍的なテキスト表現のために、事前学習済みの Transformer ベースのエンコーダをマルチタスク目的と統合する。
- GLUE、SNLI、SciTail のベンチマークで高い性能を示す。
- 限られたドメイン内ラベル付きデータでのドメイン適応の改善を示す。
提案手法
- 共通の Lexicon Encoder と Transformer Encoder を使用して、タスク間で文脈化された表現を生成する。
- 共有エンコーダにタスク固有の出力モジュール(分類、類似性、ランキング)を接続する。
- 2 段階の手順で訓練する:事前学習(マスク言語モデリングと NSP)と GLUE タスク全体でのマルチタスク微調整。
- 分類にはクロスエントロピー、回帰には MSE、ランキングにはペアワイズ損失など、タスク固有の損失関数を採用する。
- NLI などのペアワイズテキスト分類タスクのために、SAN ベースの多段推論モジュールを組み込む。
- 初期化された共有層(BERT LARGE)をマルチタスク目的でファインチューニングして MT-DNN を得る。
実験結果
リサーチクエスチョン
- RQ1マルチタスク学習は、タスク固有モデルを超えて多様な NLU タスクの一般化をどのように改善できるか?
- RQ2マルチタスク学習と BERT などの事前学習済み言語モデルを組み合わせることが、GLUE のタスク全体の性能にどのような影響を与えるか?
- RQ3MT-DNN は非常に限られたドメイン内ラベル付きデータで効果的なドメイン適応を実現できるか?
- RQ4NLI および QA 風タスクでの gains に最も寄与するアーキテクチャ要素(例:SAN モジュール、ランキング定式化)は何か?
主な発見
| CoLA | SST-2 | MRPC | STS-B | QQP | MNLI-m/mm | QNLI | RTE | WNLI | AX | Score |
|---|---|---|---|---|---|---|---|---|---|---|
| 62.5 | 95.6 | 91.1/88.2 | 89.5/88.8 | 72.7/89.6 | 86.7/86.0 | 93.1 | 81.4 | 65.1 | 40.3 | 82.7 |
| 60.5 | 94.9 | 89.3/85.4 | 87.6/86.5 | 72.1/89.3 | 86.7/85.9 | 92.7 | 70.1 | 65.1 | 39.6 | 80.5 |
- MT-DNN は GLUE の9タスク中8タスクで新たな最先端を達成し、総合 GLUE スコアを 82.7% に達した。
- MT-DNN はドメイン適応を大幅に改善:SNLI が 91.6%、SciTail が 95.0% に達し、MT-DNN LARGE を用いた全訓練データで達成。
- MT-DNN は限られたドメイン内データを持つタスクで一貫して BERT を上回り、マルチタスク学習の正則化と転移利点を強調する。
- ファインチューニングなしでも、ほとんどの GLUE タスクで BERT LARGE を上回り、CoLA はデータセットの特性のため例外となる。
- ST-DNN 変種は、タスク固有の出力モジュールと損失定式化(例:QNLI のランキング)が BERT ベースラインを超える利得に不可欠であることを示す。
- MT-DNN は非常に小さなラベル付きデータセット(0.1%–1%)で堅牢なドメイン適応を実現し、BERT に比べ大きな精度向上を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。