Skip to main content
QUICK REVIEW

[論文レビュー] Unified Language Model Pre-training for Natural Language Understanding and Generation

Li Dong|arXiv (Cornell University)|May 8, 2019
Topic Modeling参考文献 48被引用数 949
ひとこと要約

UniLM は NLU と NLG の事前学習を、自己注意マスクを構成可能な単一の Transformer を用いて統一し、双方向・単方向・シーケンス対シーケンスの目的をサポートし、GLUE、SQuAD 2.0、CoQA、複数の生成タスクで強力な結果を達成する。

ABSTRACT

This paper presents a new Unified pre-trained Language Model (UniLM) that can be fine-tuned for both natural language understanding and generation tasks. The model is pre-trained using three types of language modeling tasks: unidirectional, bidirectional, and sequence-to-sequence prediction. The unified modeling is achieved by employing a shared Transformer network and utilizing specific self-attention masks to control what context the prediction conditions on. UniLM compares favorably with BERT on the GLUE benchmark, and the SQuAD 2.0 and CoQA question answering tasks. Moreover, UniLM achieves new state-of-the-art results on five natural language generation datasets, including improving the CNN/DailyMail abstractive summarization ROUGE-L to 40.51 (2.04 absolute improvement), the Gigaword abstractive summarization ROUGE-L to 35.75 (0.86 absolute improvement), the CoQA generative question answering F1 score to 82.5 (37.1 absolute improvement), the SQuAD question generation BLEU-4 to 22.12 (3.75 absolute improvement), and the DSTC7 document-grounded dialog response generation NIST-4 to 2.67 (human performance is 2.65). The code and pre-trained models are available at https://github.com/microsoft/unilm.

研究の動機と目的

  • NLUとNLGの両方をカバーする、単一で統一された事前学習フレームワークの推進。
  • 異なるタスク用に別々の言語モデルを維持する際の複雑さとリソース要件を削減する。
  • 複数の言語モデリング目的を joint 最適化することで、汎用性の高い表現を学習する。
  • 理解系(GLUE、QA)と生成系(要約、Q&A、対話)を含むベンチマークで高い性能を示す。

提案手法

  • すべてのLM目的に共通パラメータを持つ多層 Transformer を使用する。
  • 3種類のクローズベース前学習タスクを設計・適用する:単方向LM、双方向LM、シーケンス対シーケンスLM。
  • 予測時に各トークンの文脈アクセスを制御する自己注意マスクを実装する。
  • 各バッチでバランスよく、(1/3) bidirectional、(1/3) sequence-to-sequence、(1/3) unidirectional の混合で事前学習する。
  • マスキング方式を適応させ、必要に応じてタスク固有の層を追加して下流タスクへ微調整する。
  • BERT_LARGE から初期化し、英語 Wikipedia と BookCorpus で訓練する;WordPiece トークン化と 28,996 語彙を使用。
  • 事前学習の詳細: 24-layer Transformer、1024 hidden size、16 heads、約340M parameters; ~770k ステップで 8 V100 GPU を使用して訓練; 学習率 3e-5、warmup 40k steps、dropout 0.1。

実験結果

リサーチクエスチョン

  • RQ1単一の事前学習済み Transformer を、統一された目的で NLU と NLG の双方に対して効果的に微調整できるか?
  • RQ2統一された事前学習目的は、標準ベンチマークでタスク専用のLMと比べて競争力のある、あるいは優れた性能をもたらすか?
  • RQ3複数のLM目的で事前学習されたモデルは、要約・質問生成・対話応答生成などの生成タスクの性能をどれだけ向上させるか?
  • RQ4UniLM を用いた場合、構造化 QA ベンチマーク(SQuAD 2.0、CoQA)および生成ベンチマークでの比較的利得はどの程度か?

主な発見

  • UniLM は GLUE で BERT と比較して優れ、SQuAD 2.0 および CoQA の抽出型 QA で上回る。
  • 5つのNLGデータセットで、UniLMは新しい最先端結果を達成:CNN/DailyMail abstractive summarization ROUGE-L は 40.51、Gigaword ROUGE-L は 35.75、CoQA generative QA F1 は 82.5、SQuAD QG BLEU-4 は 22.12、DSTC7 dialog response generation NIST-4 は 2.67(human 2.65)
  • 要約では、UniLM は従来の abstractive システムを上回り、CNN/DailyMail では強力な抽出モデルをも上回る(ROUGE-L の最高の抽出モデルに対して 0.88 の改善)。
  • CoQA の生成型 QA では Seq2Seq および PGNet のベースラインを大幅に上回り(F1 82.5)。
  • SQuAD の質問生成では BLEU-4 22.12、METEOR 25.06、ROUGE-L 51.07 を達成し、従来モデルより上回る。
  • GLUE の結果は、いくつかのタスクで UniLM が BERT_LARGE に匹敵する性能を示す(Table 11)。
  • 本モデルは NLU のエンコーダ、NLG のエンコーダ-デコーダとして機能し、統一事前学習によるタスク間転移を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。