QUICK REVIEW

[論文レビュー] Abstractive Summarization with Combination of Pre-trained Sequence-to-Sequence and Saliency Models

Itsumi Saito, Kyosuke Nishida|arXiv (Cornell University)|Mar 29, 2020

Topic Modeling参考文献 23被引用数 30

ひとこと要約

本論文は、事前学習済みの seq-to-seq モデルとトークン/文レベルの顕性モデルの9つの組み合わせを調査し、新たな CIT モデルを導入して重要なトークンを入力として取り込み、CNN/DM と XSum データセットで改善を示し、特に CNN/DM ではファインチューニング済みベースラインを上回る。

ABSTRACT

Pre-trained sequence-to-sequence (seq-to-seq) models have significantly improved the accuracy of several language generation tasks, including abstractive summarization. Although the fluency of abstractive summarization has been greatly improved by fine-tuning these models, it is not clear whether they can also identify the important parts of the source text to be included in the summary. In this study, we investigated the effectiveness of combining saliency models that identify the important parts of the source text with the pre-trained seq-to-seq models through extensive experiments. We also proposed a new combination model consisting of a saliency model that extracts a token sequence from a source text and a seq-to-seq model that takes the sequence as an additional input text. Experimental results showed that most of the combination models outperformed a simple fine-tuned seq-to-seq model on both the CNN/DM and XSum datasets even if the seq-to-seq model is pre-trained on large-scale corpora. Moreover, for the CNN/DM dataset, the proposed combination model exceeded the previous best-performed model by 1.33 points on ROUGE-L.

研究の動機と目的

要約を行うために、顕性モデルが事前学習済みの seq-to-seq モデルを補完できるかを評価する。
標準データセット上で、顕性モデルと事前学習済みモデルの9つの組み合わせを評価する。
重要なトークンを明示的に要約モデルへの入力として含める新しい CIT モデルを提案する。

提案手法

大規模なラベルなしデータで事前学習された Transformer ベースのエンコーダ-デコーダ (例: BART LARGE) を seq-to-seq のバックボーンとして用いる。
2種類の顕性モデルを開発する: seq-to-seq モデルと共同訓練する共有エンコーダ、そして重要なトークン/文を選択する抽出器。
ソース要約と参照要約の整合性から派生した疑似参照ラベルで顕性モデルを訓練する; 顕性には二値交差エントロピー損失を用いる。
複数の組み合わせアーキテクチャを定義する: マルチタスク (MT)、選択的エンコーディング (SE)、選択的アテンション (SA)、および抽出器と組み合わせた (SEG, CIT, CIT+SE, CIT+SA)。
CIT を提案: Top-K 顕性トークン C をソース文とともに seq-to-seq モデルへの追加入力としてフィードする。

実験結果

リサーチクエスチョン

RQ1抽出型と抽象型データセットで、前訓練済み seq-to-seq モデルと併用した顕性モデルは抽象的要約を改善するか？
RQ2CNN/DM と XSum で最高の ROUGE スコアを生み出す顕性戦略の組み合わせはどれか（共有エンコーダ vs 抽出器）？
RQ3提案された CIT モデルは追加の事前学習データなしで、他のファインチューニング済みモデルや組み合わせモデルを上回るか？
RQ4疑似顕性ラベルの品質は CNN/DM と XSum の性能にどのように影響するか？

主な発見

モデル	R1	R2	RL
BART (our fine-tuning)	43.79	21.00	40.58
MT	44.84	21.71	41.52
SE	44.59	21.49	41.28
SE + MT	45.23	22.07	41.94
SA	44.72	21.59	41.40
SA + MT	44.93	21.81	41.61
SEG	44.62	21.51	41.29
CIT	45.74	22.50	42.44
CIT + SE	45.80	22.53	42.48
CIT + SA	45.74	22.48	42.44

すべての組み合わせモデルは CNN/DM で単純なファインチューニング済み BART を上回り、CIT と CIT+SE が最高の ROUGE スコアを達成した。
CNN/DM では CIT が R1=45.74, R2=22.50, RL=42.44 を達成し、ファインチューニング済みベースラインを上回った。
CNN/DM では CIT+SE が R1=45.80, R2=22.53, RL=42.48 を達成し、CNN/DM で報告された方法の中で最良。
XSum では、組み合わせの中で CIT が最も良く、Top-K トークン抽出器設定で R1=46.72, R2=20.53, RL=37.73。全体の改善は CNN/DM より小さかった。
CIT は追加の事前学習データを必要とせず他の組み合わせモデルを上回り、顕性に導かれた入力が事前学習済み seq-to-seq 要約を改善できることを示し、特に抽出型データセットで効果的である。
最先端の事前学習モデルと比較して、CIT は多くを CNN/DM で上回ったが XSum では PEGASUS HugeNews が最高得点を達成し、データセット依存の利点を浮き彫りにしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。