QUICK REVIEW

[論文レビュー] Multi-Task Deep Neural Networks for Natural Language Understanding

Xiaodong Liu, Pengcheng He|arXiv (Cornell University)|Jan 31, 2019

Topic Modeling参考文献 34被引用数 220

ひとこと要約

MT-DNN はマルチタスク学習と事前学習済み Transformer エンコーダを組み合わせ、普遍的な言語表現を学習し、GLUE で最先端を達成し、SNLI と SciTail のドメイン適応で Gains。

ABSTRACT

In this paper, we present a Multi-Task Deep Neural Network (MT-DNN) for learning representations across multiple natural language understanding (NLU) tasks. MT-DNN not only leverages large amounts of cross-task data, but also benefits from a regularization effect that leads to more general representations in order to adapt to new tasks and domains. MT-DNN extends the model proposed in Liu et al. (2015) by incorporating a pre-trained bidirectional transformer language model, known as BERT (Devlin et al., 2018). MT-DNN obtains new state-of-the-art results on ten NLU tasks, including SNLI, SciTail, and eight out of nine GLUE tasks, pushing the GLUE benchmark to 82.7% (2.2% absolute improvement). We also demonstrate using the SNLI and SciTail datasets that the representations learned by MT-DNN allow domain adaptation with substantially fewer in-domain labels than the pre-trained BERT representations. The code and pre-trained models are publicly available at https://github.com/namisan/mt-dnn.

研究の動機と目的

関連した NLU タスク間で表現を共有するために、マルチタスク学習を活用する。
普遍的なテキスト表現のために、事前学習済みの Transformer ベースのエンコーダをマルチタスク目的と統合する。
GLUE、SNLI、SciTail のベンチマークで高い性能を示す。
限られたドメイン内ラベル付きデータでのドメイン適応の改善を示す。

提案手法

共通の Lexicon Encoder と Transformer Encoder を使用して、タスク間で文脈化された表現を生成する。
共有エンコーダにタスク固有の出力モジュール（分類、類似性、ランキング）を接続する。
2 段階の手順で訓練する：事前学習（マスク言語モデリングと NSP）と GLUE タスク全体でのマルチタスク微調整。
分類にはクロスエントロピー、回帰には MSE、ランキングにはペアワイズ損失など、タスク固有の損失関数を採用する。
NLI などのペアワイズテキスト分類タスクのために、SAN ベースの多段推論モジュールを組み込む。
初期化された共有層（BERT LARGE）をマルチタスク目的でファインチューニングして MT-DNN を得る。

実験結果

リサーチクエスチョン

RQ1マルチタスク学習は、タスク固有モデルを超えて多様な NLU タスクの一般化をどのように改善できるか？
RQ2マルチタスク学習と BERT などの事前学習済み言語モデルを組み合わせることが、GLUE のタスク全体の性能にどのような影響を与えるか？
RQ3MT-DNN は非常に限られたドメイン内ラベル付きデータで効果的なドメイン適応を実現できるか？
RQ4NLI および QA 風タスクでの gains に最も寄与するアーキテクチャ要素（例：SAN モジュール、ランキング定式化）は何か？

主な発見

CoLA	SST-2	MRPC	STS-B	QQP	MNLI-m/mm	QNLI	RTE	WNLI	AX	Score
62.5	95.6	91.1/88.2	89.5/88.8	72.7/89.6	86.7/86.0	93.1	81.4	65.1	40.3	82.7
60.5	94.9	89.3/85.4	87.6/86.5	72.1/89.3	86.7/85.9	92.7	70.1	65.1	39.6	80.5

MT-DNN は GLUE の9タスク中8タスクで新たな最先端を達成し、総合 GLUE スコアを 82.7% に達した。
MT-DNN はドメイン適応を大幅に改善：SNLI が 91.6%、SciTail が 95.0% に達し、MT-DNN LARGE を用いた全訓練データで達成。
MT-DNN は限られたドメイン内データを持つタスクで一貫して BERT を上回り、マルチタスク学習の正則化と転移利点を強調する。
ファインチューニングなしでも、ほとんどの GLUE タスクで BERT LARGE を上回り、CoLA はデータセットの特性のため例外となる。
ST-DNN 変種は、タスク固有の出力モジュールと損失定式化（例：QNLI のランキング）が BERT ベースラインを超える利得に不可欠であることを示す。
MT-DNN は非常に小さなラベル付きデータセット（0.1%–1%）で堅牢なドメイン適応を実現し、BERT に比べ大きな精度向上を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。