[論文レビュー] ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training
ProphetNetは、Seq2Seqの事前学習において未来のn-gram予測目的とnストリーム自己注意を導入し、要約生成と質問生成で最新の状態を達成します。各ステップで複数の未来トークンを予測し、推論のために標準のTransformerデコーダへ変換することができます。
This paper presents a new sequence-to-sequence pre-training model called ProphetNet, which introduces a novel self-supervised objective named future n-gram prediction and the proposed n-stream self-attention mechanism. Instead of optimizing one-step-ahead prediction in the traditional sequence-to-sequence model, the ProphetNet is optimized by n-step ahead prediction that predicts the next n tokens simultaneously based on previous context tokens at each time step. The future n-gram prediction explicitly encourages the model to plan for the future tokens and prevent overfitting on strong local correlations. We pre-train ProphetNet using a base scale dataset (16GB) and a large-scale dataset (160GB), respectively. Then we conduct experiments on CNN/DailyMail, Gigaword, and SQuAD 1.1 benchmarks for abstractive summarization and question generation tasks. Experimental results show that ProphetNet achieves new state-of-the-art results on all these datasets compared to the models using the same scale pre-training corpus.
研究の動機と目的
- 次のトークンだけを予測するのではなく、将来のトークンを計画することでSeq2Seqの事前学習の改善を動機づける。
- 局所的相関への過剰適合を抑える自教師付き目的として未来のn-gram予測を導入する。
- 複数の未来トークンを同時に予測できるnストリーム自己注意機構を開発する。
- 生成時に predicting streams を無効化して標準的な推論と互換性を保つ。
- ベンチマークNLGタスクでの広範なアブレーションと比較を通じて有効性を示す。
提案手法
- Transformerのエンコーダ-デコーダを拡張し、未来トークンを予測する追加のストリーム(n-stream自己注意)を導入する。
- 未来n-gram損失を、従来の言語モデリング損失と次のn-1未来トークンを予測する損失の組み合わせとして定義する(減衰ウェイト付き)。
- マスクされたスパン内のn-gramsを予測するよう適応したデノイズドオートエンコーダー目的で学習する(マスキングベースのスパン masking)。
- MASS/BART/T5と同様の設定で、512の入力長とスパンマスキングを用い、16GB(base)および160GB(large)コーパスで事前学習する。
- 推論時にはpredicting streamsを無効化し、モデルを標準的な次トークン予測に縮小する。
- 生成品質を評価するためにCNN/DailyMail、Gigaword、SQuAD 1.1 QGタスクでファインチューニングする。
実験結果
リサーチクエスチョン
- RQ1未来のn-gramを予測することは、1ステップ先予測と比べて生成テキストの長期依存性の捉え方や全体的一貫性を改善するか?
- RQ2n-stream自己注意デコーダは、標準的な推論と互換性を保ちながら訓練中に複数の未来トークンを効果的に予測することを学べるか?
- RQ3ProphetNetは、要約生成と質問生成のベンチマークにおいて、他の事前学習済みSeq2Seqモデルと比べてどう性能を示すか?
主な発見
| 手法 | R-1 | R-2 | R-L |
|---|---|---|---|
| Lead-3 | 40.42 | 17.62 | 36.67 |
| PTGEN | 36.44 | 15.66 | 33.42 |
| PTGEN+Coverage | 39.53 | 17.28 | 36.38 |
| S2S-ELMo | 41.56 | 18.94 | 38.47 |
| Bottom-Up | 41.22 | 18.68 | 38.34 |
| BERTSUMABS | 41.72 | 19.39 | 38.76 |
| BERTSUMEXTABS | 42.13 | 19.60 | 39.18 |
| MASS | 42.12 | 19.50 | 39.01 |
| UniLM | 43.33 | 20.21 | 40.51 |
| ProphetNet | 43.68 | 20.64 | 40.72 |
- ProphetNetはCNN/DailyMailでROUGEスコアの最先端を達成し、43.68 (R-1)、20.64 (R-2)、40.72 (R-L)。
- Gigawordでは、ProphetNetが指標全体でベースラインを上回る(Table 2における最高値)。
- SQuAD 1.1 QGでは、ProphetNetは従来手法と比べてBLEU/METEOR/ROUGEで最上位のスコアを達成。
- 大規模事前学習(160GB)はさらなる改善をもたらし、CNN/DailyMailとGigawordでSOTAを達成する一方、いくつかのベースラインよりはるかに少ない事前学習データで済む。
- 事前学習なしでもProphetNetはCNN/DailyMailでTransformerベースラインを上回る。
- n-gram設定を比較すると、2-gramおよび3-gramバリアントはMASSと1-gramのベースラインを上回り、2-gramは速度と精度のトレードオフが有利である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。