[論文レビュー] PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization
PEGASUSはGap Sentences Generation (GSG)をTransformerエンコーダ-デコーダモデルの事前学習目的として導入し、12の abstractive summarization データセットで最先端の結果を達成し、低リソース性能でも強力。
Recent work pre-training Transformers with self-supervised objectives on large text corpora has shown great success when fine-tuned on downstream NLP tasks including text summarization. However, pre-training objectives tailored for abstractive text summarization have not been explored. Furthermore there is a lack of systematic evaluation across diverse domains. In this work, we propose pre-training large Transformer-based encoder-decoder models on massive text corpora with a new self-supervised objective. In PEGASUS, important sentences are removed/masked from an input document and are generated together as one output sequence from the remaining sentences, similar to an extractive summary. We evaluated our best PEGASUS model on 12 downstream summarization tasks spanning news, science, stories, instructions, emails, patents, and legislative bills. Experiments demonstrate it achieves state-of-the-art performance on all 12 downstream datasets measured by ROUGE scores. Our model also shows surprising performance on low-resource summarization, surpassing previous state-of-the-art results on 6 datasets with only 1000 examples. Finally we validated our results using human evaluation and show that our model summaries achieve human performance on multiple datasets.
研究の動機と目的
- 抽象的な要約に特化した事前学習 objectives を一般的な言語モデリングを超えて動機づける。
- 事前学習を下流の要約タスクと整合させる自己監視型 objective を開発する。
- 事前学習アプローチの一般化能力を評価するために多様なドメインで評価する。
- 低リソースのファインチューニング設定で強力な性能を示す。
- いくつかのデータセットで人間の評価と比較して人間の性能を上回ることを検証する。
提案手法
- Gap Sentences Generation (GSG)を提案。重要な文をマスクし、残りのテキストから単一の出力として生成する。
- Lead、Random、Principal Ind-Orig/Ind-Uniq、Seq-Orig/Seq-Uniqなど、いくつかのギャップ文選択戦略を比較する。
- ablationでGSGとMasked Language Model (MLM) objectiveを組み合わせるが、最終的には大規模モデルではMLMなしのGSGを選択する。
- C4とHugeNewsのコーパスでTransformerエンコーダ-デコーダモデルを事前学習し、文書の残り部分からギャップ文を生成する学習を行う。
- 12の下流 abstractive summarization データセットで多様なドメインにまたがって微調整を行い、ROUGE指標で評価する。
- ほとんどのデータセットで非常に小さな監修データ数(100〜1000例程度)でゼロショット・低リソース性能を評価する。
実験結果
リサーチクエスチョン
- RQ1要約に特化した事前学習目的が多様なドメインで下流のROUGEスコアを改善できるか。
- RQ2ギャップ文をどのように選択すべきか(ランダム、リード、重要度ベース)で下流の要約性能を最適化できるか。
- RQ3ギャップ文の割合と語彙選択が事前学習の有効性に与える影響は。
- RQ4ドメイン整合コーパス(HugeNews vs. C4)で事前学習を行うと、異なる下流タスクでの性能に影響があるか。
- RQ5PEGASUSはベースラインと比較して低リソースおよびゼロショットのファインチューニング設定でどのように性能を示すか。
主な発見
| R1/R2/RL | データセットサイズ | Transformer_BASE | PEGASUS_BASE | Previous SOTA | PEGASUS_LARGE (C4) | PEGASUS_LARGE (HugeNews) |
|---|---|---|---|---|---|---|
| 30.83/10.83/24.41 | XSum | 39.79/16.58/31.70 | 45.14/22.27/37.25 | 45.20/22.06/36.99 | 47.21/24.56/39.25 | |
| 38.27/15.03/35.48 | CNN/DailyMail | 41.79/18.81/38.93 | 44.16/21.28/40.90 | 43.90/21.20/40.76 | 44.17/21.47/41.11 | |
| 40.28/27.93/36.52 | NEWSROOM | 42.38/30.06/38.52 | 39.91/28.38/36.87 | 45.07/33.39/41.28 | 45.15/33.51/41.33 |
- GSGベースの事前学習は12の下流要約データセット(XSum, CNN/DM, NEWSROOM, Multi-News, Gigaword, arXiv, PubMed, BIGPATENT, WikiHow, Reddit TIFU, AESLC, BillSum)で最先端の結果をもたらす。
- ギャップ生成のために independently選択された重要文(Ind-Orig)はランダムやリードベース戦略を一貫して上回り、GSRはデータセット全体で約30%程度有効。
- PEGASUS-LARGE(HugeNewsで事前学習)は多くのデータセットで従来のSOTAより高いROUGEスコアを達成し、XSumとCNN/DMで顕著な向上を示す。一方WikiHowはC4事前学習を好む。
- 低リソース設定ではPEGASUS-LARGEが1000件程度の supervised 例数で複数データセットでフルスーパービジョンのベースラインに匹敵または上回ることができ、ゼロショット性能も強い。
- 人間評価ではPEGASUSの出力がXSum、CNN/DM、Reddit TIFUの複数条件で人間の参照要約と同等または上回ることが多い。
- C4とHugeNewsの混成と確率的なギャップ文選択により、多くのデータセットでさらなる改善が得られる(表4)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。