[論文レビュー] Unified Language Model Pre-training for Natural Language Understanding and Generation
UniLM は、単一の Transformer を共有パラメータで事前訓練し、三つの自己注意マスクを用いて一方向、双方向、シーケンス対シーケンスの目的を実現することで、GLUE、SQuAD 2.0、CoQA、そして複数の要約・生成タスクで高い成果を達成する。
This paper presents a new Unified pre-trained Language Model (UniLM) that can be fine-tuned for both natural language understanding and generation tasks. The model is pre-trained using three types of language modeling tasks: unidirectional, bidirectional, and sequence-to-sequence prediction. The unified modeling is achieved by employing a shared Transformer network and utilizing specific self-attention masks to control what context the prediction conditions on. UniLM compares favorably with BERT on the GLUE benchmark, and the SQuAD 2.0 and CoQA question answering tasks. Moreover, UniLM achieves new state-of-the-art results on five natural language generation datasets, including improving the CNN/DailyMail abstractive summarization ROUGE-L to 40.51 (2.04 absolute improvement), the Gigaword abstractive summarization ROUGE-L to 35.75 (0.86 absolute improvement), the CoQA generative question answering F1 score to 82.5 (37.1 absolute improvement), the SQuAD question generation BLEU-4 to 22.12 (3.75 absolute improvement), and the DSTC7 document-grounded dialog response generation NIST-4 to 2.67 (human performance is 2.65). The code and pre-trained models are available at https://github.com/microsoft/unilm.
研究の動機と目的
- 自然言語理解と生成の両方のタスクを扱える単一の事前訓練モデルを動機づける。
- 共有パラメータを用いた複数の言語モデリング目的を用いる統一された事前訓練フレームワークを開発する。
- 統一モデルがNLUベンチマークのタスク固有LMと同等またはそれを上回り、NLGタスクで最先端の結果を達成できることを示す。
提案手法
- BERT-LARGE から初期化され、Wikipedia と BookCorpus で訓練された、隠れ層 1024、ヘッド数 16 の 24 層 Transformer を用いる。
- 自己注意マスクを用いて実現される三つの言語モデリング目的で事前訓練する:一方向(左から右と右から左)、双方向、シーケンス対シーケンス。
- SOS および EOS トークンを用いて単一のシーケンスとして入力をパックし、28996 の語彙を持つ WordPiece トークン化を適用する。標準 MLM ルールで 15% のマスキングを適用。
- 下流タスクへファインチューニングする際、タスク固有のマスクを適用し、適切に場合には NLU 用の双方向エンコーダ、NLG 用のシーケンス対シーケンスエンコーダ-デコーダへモデルを変換する。
- 目的間で共同最適化を行い、バッチ混合は (1/3 双方向, 1/3 seq2seq, 1/6 左→右, 1/6 右→左) とし、標準的な最適化設定(Adam、ウォームアップ、減衰)を用いる。
- GLUE、SQuAD 2.0、CoQA、CNN/DailyMail、Gigaword、DSTC7、SQuAD 質問生成、CoQA 生成型 QA を評価する。
実験結果
リサーチクエスチョン
- RQ1統一された事前訓練目的で訓練された単一の Transformer モデルは、NLP の理解と生成の両方のタスクで良好な性能を発揮できるか。
- RQ2一方向、双方向、シーケンス対シーケンスの文脈を可能にする異なる自己注意マスクは、NLU と NLG のベンチマーク間の転移を改善するか。
- RQ3UniLM を使用した場合、標準ベンチマーク(GLUE、SQuAD、CoQA)および生成タスク(要約、QA 生成、対話応答)で、BERT のようなタスク固有の事前訓練LMと比較して、どの程度の利得が得られるか。
- RQ4LM 目的間のパラメータ共有は、一般化とデプロイ時のモデル多様性を減らすことに有益か。
- RQ5ドキュメント根拠の対話生成およびクロスドメイン生成タスクでの UniLM の性能はどうか。
主な発見
- 抽出型 QA で GLUE および SQuAD 2.0/CoQA に対して BERT と競合する結果を達成しつつ、強力な生成能力を有する。
- 5つのNLGデータセットで新たな最先端結果を設定:CNN/DailyMail 要約(抽象的要約)ROUGE-L 40.51、Gigaword ROUGE-L 35.75、CoQA生成型QA F1 82.5、SQuAD質問生成 BLEU-4 22.12、DSTC7対話応答生成 NIST-4 2.67。
- CNN/DailyMail および Gigaword における従来モデルより抽象的要約性能が優れており、生成型QAと対話タスクでも高い性能を示す。
- GLUE 評価では UniLM が複数タスクで BERT-LARGE と同等であることを示す。
- UniLM を用いた質問生成は SQuAD データセットで BLEU-4、METEOR、ROUGE-L の最先端を達成。
- UniLM による生成型 QA は CoQA で抽出型手法との差を大幅に縮め、従来の生成ベースラインを上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。