[論文レビュー] UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training
UniLMv2 は、偽マスク言語モデリングを用いて統一された双方向エンコーダとシーケンス・ツー・シーケンスデコーダを事前学習し、複数の NLU および NLG ベンチマークで最先端の結果を達成します。
We propose to pre-train a unified language model for both autoencoding and partially autoregressive language modeling tasks using a novel training procedure, referred to as a pseudo-masked language model (PMLM). Given an input text with masked tokens, we rely on conventional masks to learn inter-relations between corrupted tokens and context via autoencoding, and pseudo masks to learn intra-relations between masked spans via partially autoregressive modeling. With well-designed position embeddings and self-attention masks, the context encodings are reused to avoid redundant computation. Moreover, conventional masks used for autoencoding provide global masking information, so that all the position embeddings are accessible in partially autoregressive language modeling. In addition, the two tasks pre-train a unified language model as a bidirectional encoder and a sequence-to-sequence decoder, respectively. Our experiments show that the unified language models pre-trained using PMLM achieve new state-of-the-art results on a wide range of natural language understanding and generation tasks across several widely used benchmarks.
研究の動機と目的
- 単一のモデルで言語理解と生成の両方を支援する統一的な事前学習を動機づける。
- トークン間およびスパン間の関係を学習するために、偽マスク言語モデリング(PMLM)を導入する。
- エンコーディング結果を再利用して冗長な計算を避け、AEとPARの共同学習を効率化する。
- オートエンコーディングと部分自回帰目的の組み合わせが、多様なタスクに対して補完的な表現を生み出すことを示す。
提案手法
- 双方向エンコーディングのためのオートエンコーディング(AE)と、シーケンス・ツー・シーケンスデコーディングのための部分自回帰(PAR)の2つの MLM 目的を定義する。
- 元のトークンと位置埋め込みを共有する疑似マスク [Pseudo] を導入し、単一の順伝播でAEとPAR間の共通コンテキストを可能にする。
- PAR でスパンを予測単位として許容するため、ブロック単位のマスキングと因数分解順序を使用する(単一トークンだけでなく)。
- 自己注意マスクを設計し、文脈アクセス性を制御し、因数分解ステップ間の情報漏洩を防ぐ。
- L = L_AE + L_PAR で訓練し、両方の目的を同時に最適化し、タスク間で隠れ状態を再利用する。
- NLUタスクには双方向エンコーダとして微調整、NLGタスクには自己回帰デコーダとして微調整し、タスク固有の出力を用いる。
実験結果
リサーチクエスチョン
- RQ1PMLM を介して AE と PAR を組み合わせた統一的な事前学習フレームワークは、理解と生成の両方のタスクを改善できるのか。
- RQ2マスキング戦略と因数分解順序は、トークン間・トークン内/スパン間の関係の学習にどう影響するのか。
- RQ3AE と PAR の間でパラメータを共有することで、性能を犠牲にすることなく効率向上が得られるか。
- RQ4UniLMv2 を使用した場合の SQuAD、GLUE、および要約タスクにおける実証的な利得は何か。
主な発見
- SQuAD では、UniLMv2 base は v1.1 で 93.1 F1 と 87.1 EM、v2.0 で 86.1 F1 と 83.3 EM を達成。
- GLUE では、UniLMv2 base が MNLI や SST-2 などのタスクで BERT-base および XLNet-base を上回り、MNLI の精度(88.5)と SST-2 の精度(95.1) に顕著な改善を示す。
- 要約(要約生成)では、CNN/DailyMail と XSum で強力な ROUGE スコアを達成し、いくつかのベースラインや同程度サイズのモデルを上回る。
- 質問生成や他の NLG タスクでは、ベースラインおよび一部の大規模事前学習モデルと比較して、BLEU/METEOR/ROUGE 指標で優位性を示す。
- アブレーション研究は、AE+PAR の結合訓練が事前学習目的の中で最良の結果をもたらすことを示し、PAR がスパンレベルのモデリングに強く、ブロックマスキングが長距離依存の捕捉を強化することを示唆している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。