Skip to main content
QUICK REVIEW

[論文レビュー] MPNet: Masked and Permuted Pre-training for Language Understanding

Kaitao Song, Xu Tan|arXiv (Cornell University)|Apr 20, 2020
Topic Modeling参考文献 26被引用数 503
ひとこと要約

MPNetは MLM (BERT) と PLM (XLNet) を、予測されたトークン間の依存性をモデル化し、全文の位置情報を用いることで統合し、GLUE、SQuAD、その他のベンチマークで大きな向上を達成します。

ABSTRACT

BERT adopts masked language modeling (MLM) for pre-training and is one of the most successful pre-training models. Since BERT neglects dependency among predicted tokens, XLNet introduces permuted language modeling (PLM) for pre-training to address this problem. However, XLNet does not leverage the full position information of a sentence and thus suffers from position discrepancy between pre-training and fine-tuning. In this paper, we propose MPNet, a novel pre-training method that inherits the advantages of BERT and XLNet and avoids their limitations. MPNet leverages the dependency among predicted tokens through permuted language modeling (vs. MLM in BERT), and takes auxiliary position information as input to make the model see a full sentence and thus reducing the position discrepancy (vs. PLM in XLNet). We pre-train MPNet on a large-scale dataset (over 160GB text corpora) and fine-tune on a variety of down-streaming tasks (GLUE, SQuAD, etc). Experimental results show that MPNet outperforms MLM and PLM by a large margin, and achieves better results on these tasks compared with previous state-of-the-art pre-trained methods (e.g., BERT, XLNet, RoBERTa) under the same model setting. The code and the pre-trained models are available at: https://github.com/microsoft/MPNet.

研究の動機と目的

  • 独立したトークン予測である MLM の限界と、全文の位置情報を欠く PLM の限界に対応することで、事前学習の改善を動機づける。
  • 予測されたトークン間の依存関係を活用しつつ、全文の位置情報を組み込んだ事前学習目的を開発する。
  • MPNet が BERT、XLNet、RoBERTa、ELECTRA を多様な NLP ベンチマークで著しい改善をもたらすことを実証する。

提案手法

  • MPNet 目的を導入する:置換された系列に対して P(x_z_t | x_z_<t, M_z>c; θ) を最大化する。
  • 予測トークン間の出力依存性をモデル化するために、二重ストリームの自己注意機構を用いる。
  • 前処理の間、クエリ系とコンテンツ系のストリームが全文情報を見るように位置補償を適用する。
  • 入力設計:非予測トークンとマスクトークン(予測部のため)を、元の系列の置換と結合する。
  • 約160GBの大規模コーパスで学習し、下流タスク(GLUE、SQuAD、RACE、IMDB)でファインチューニングする。
  • 同じモデル設定下で、MPNet を MLM および PLM、さらには強力なベースライン(BERT、XLNet、RoBERTa)と比較する。

実験結果

リサーチクエスチョン

  • RQ1予測トークン間の依存性(出力依存性)を事前学習中に活用して、 MLM を超える表現を得られるか?
  • RQ2全文の位置情報を組み込むことで、PLM と比べた事前学習とファインチューニングのずれを減少させられるか?
  • RQ3標準的なベンチマーク(GLUE、SQuAD、RACE、IMDB)に対する MPNet の性能は、従来の事前学習法と比べてどうか?
  • RQ4MPNet における位置補償と置換機構の実証的影響はどのようなものか?

主な発見

  • MPNet は GLUE Dev セットにおいて、同じベースモデル設定の下で MLM および PLM を大幅に上回る。
  • MPNet は報告された実験で GLUE ベンチマークにおいて BERT、XLNet、RoBERTa より良い結果を達成。
  • SQuAD v1.1 および v2.0 では、MPNet は報告された指標で BERT、XLNet、RoBERTa を上回る。
  • 16GB データで事前学習した場合、RACE と IMDB で強い結果を示し、160GB で事前学習するとより大きな利得が得られる。
  • 消去実験(アブレーション)により、MPNet の性能には位置補償と出力依存性が重要であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。