QUICK REVIEW

[論文レビュー] MASS: Masked Sequence to Sequence Pre-training for Language Generation

Kaitao Song, Xu Tan|arXiv (Cornell University)|May 7, 2019

Natural Language Processing Techniques被引用数 580

ひとこと要約

MASS は、文章の一部をマスクして予測することでエンコーダ-デコーダモデルを事前学習し、NMT・要約・会話応答生成などのゼロ/低リソース言語生成タスクを改善し、教師なしNMTのBLEUスコアで最先端を達成する。

ABSTRACT

Pre-training and fine-tuning, e.g., BERT, have achieved great success in language understanding by transferring knowledge from rich-resource pre-training task to the low/zero-resource downstream tasks. Inspired by the success of BERT, we propose MAsked Sequence to Sequence pre-training (MASS) for the encoder-decoder based language generation tasks. MASS adopts the encoder-decoder framework to reconstruct a sentence fragment given the remaining part of the sentence: its encoder takes a sentence with randomly masked fragment (several consecutive tokens) as input, and its decoder tries to predict this masked fragment. In this way, MASS can jointly train the encoder and decoder to develop the capability of representation extraction and language modeling. By further fine-tuning on a variety of zero/low-resource language generation tasks, including neural machine translation, text summarization and conversational response generation (3 tasks and totally 8 datasets), MASS achieves significant improvements over the baselines without pre-training or with other pre-training methods. Specially, we achieve the state-of-the-art accuracy (37.5 in terms of BLEU score) on the unsupervised English-French translation, even beating the early attention-based supervised model.

研究の動機と目的

エンコーダ-デコーダーアーキテクチャを用いた言語生成タスクの事前学習を動機づける。
マスクされた文の断片を再構成することによって、MASSがエンコーダとデコーダを共同で事前学習することを提案する。
MASSが、ベースラインよりもゼロ/低資源NMT、要約、対話応答生成を改善することを示す。
複数言語ペアで、MASSが教師なしNMTのBLEUスコアで最先端を達成することを示す。

提案手法

モデルはTransformerのエンコーダ–デコーダーアーキテクチャを使用する。
入力は特定の記号で連続した断片がマスクされた文であり、デコーダはエンコーダ表現を条件としてマスクされた断片を予測する。
マスキング長さ k はハイパーパラメータであり、MASSは MLM (BERT) および標準言語モデル (GPT) を特別な場合として一般化する。
エンコーダの入力はトークンの80%を [M] としてマスクし、10%をランダムなトークン、10%を変えずに保持して学習をバランスさせる。
事前学習中、MASSはエンコーダで連続したトークンをマスクし、エンコーダでマスクされていないデコーダ入力トークンもマスクして、表現へのエンコーダ依存を促す。

実験結果

リサーチクエスチョン

RQ1MASSはラベリングなしデータ上でエンコーダとデコーダを共同で事前学習し、言語生成タスクに利益をもたらすか？
RQ2マスク断片の長さ k は事前学習の効果と下流タスクの性能にどう影響するか？
RQ3ゼロ/低資源設定において、MASSはエンコーダ-デコーダ生成タスク向けの既存の事前学習手法（例: BERT+LM、DAE、XLM）を上回るか？
RQ4MASSはNMT、テキスト要約、対話応答生成など、さまざまな生成タスクに有効か？

主な発見

MASSは6層Transformer構成で、en-fr BLEU 37.50、en-ro BLEU 35.20を含む6つの翻訳方向で教師なしNMTの従来法を上回る。
ゼロ/低資源NMTでは、MASSは研究対象のすべての言語ペアで、バイリンガルデータのみで訓練したベースラインおよび従来の事前学習法を一貫して上回る。
要約では、複数のデータ規模でROUGEスコアをベースラインより改善し、10Kデータ程度でも顕著な改善を示す。
対話応答生成では、10Kおよび110Kデータ設定の両方でベースラインより困惑度が低い。
アブレーション研究は、連続トークンのマスク化（ランダム離散マスク化 vs. 連続）とマスク済みデコーダ入力の投入がMASSの有効性に不可欠であることを示し、MASSはDiscreteマスキングおよびFeedバリアントを一貫して上回る。
Across tasks, MASS achieves state-of-the-art performance in unsupervised NMT, outperforming the previous best by more than 4 BLEU points on English-French.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。