QUICK REVIEW

[論文レビュー] Sequence Level Contrastive Learning for Text Summarization

Shusheng Xu, Xingxing Zhang|arXiv (Cornell University)|Sep 8, 2021

Topic Modeling被引用数 23

ひとこと要約

本稿では、文書、ゴール要約、モデル生成要約の表現を共通のベクトル空間に整列させることで、BARTを向上させるシーケンスレベルの対照的学習フレームワークSeqCoを提案する。この手法は、3つのデータセット（CNN/DailyMail、NYT、XSum）において一貫してROUGEスコアと人間評価による忠実度を向上させ、忠実度向上と幻覚の低減を実現する。

ABSTRACT

Contrastive learning models have achieved great success in unsupervised visual representation learning, which maximize the similarities between feature representations of different views of the same image, while minimize the similarities between feature representations of views of different images. In text summarization, the output summary is a shorter form of the input document and they have similar meanings. In this paper, we propose a contrastive learning model for supervised abstractive text summarization, where we view a document, its gold summary and its model generated summaries as different views of the same mean representation and maximize the similarities between them during training. We improve over a strong sequence-to-sequence text generation model (i.e., BART) on three different summarization datasets. Human evaluation also shows that our model achieves better faithfulness ratings compared to its counterpart without contrastive objectives.

研究の動機と目的

標準的なシーケンス・ツー・シーケンス学習では、文書とその要約の間の意味的同等性が明示的にモデル化されていないという問題に対処する。
同じコンテンツの異なる視点から、モデルが共有の意味表現を学習できるようにすることで、抽象的要約の品質を向上させる。
文書、ゴール要約、モデル生成要約の表現を整列させることで、生成要約の幻覚を低減し、忠実度を向上させる。
一般化と多様性の向上を図るため、動的に生成された要約を対照的学習における追加の視点として使用する有効性を検討する。

提案手法

入力文書、そのゴール要約、およびモデルが生成した要約を、同じ意味的表現の異なる視点として扱う。
文書とその要約（ゴールおよび生成済み）の文脈表現の類似度を最大化する対照的目的関数を用いて、BARTベースのモデルを学習する。
正例ペア（同じ文書-要約ペア）間の距離を最小化し、負例ペア（異なる文書-要約ペア）間の距離を最大化する対照的損失関数を用いる。
多様性の向上とロバストネスの強化を図るため、ゴール要約とモデル生成要約の両方を正例の視点として統合する。
過学習を回避し、学習コストを削減するため、文書レベルまたはシーケンスレベルの表現に対する単一の類似度損失（例：対照的損失）を適用する。
生成品質と意味的整合性を維持しつつ、負の対数尤度損失と提案された対照的目的関数を組み合わせて、エンド・ツー・エンドでモデルを微調整する。

実験結果

リサーチクエスチョン

RQ1シーケンスレベルの対照的学習により、文書と要約の間の意味的同等性を明示的にモデル化することで、抽象的要約の性能向上が図れるか？
RQ2学習中にモデルが生成した要約を追加の正例の視点として使用することで、モデルの一般化能力と忠実度が向上するか？
RQ3対照的目的関数は、標準的なNLL学習と比較して、生成要約における幻覚と事実整合性にどのように影響を与えるか？
RQ4要約の抽象的特性に応じた異なるデータセット（CNN/DailyMail, NYT, XSum）において、最適な対照的目的関数の構成（例：x-y, x-ŷ, y-ŷ）は何か？
RQ5複数の対照的目的関数を組み合わせることで性能向上が得られるか、それとも訓練コストの増加に見合わないか？

主な発見

SeqCoは、すべての3つのデータセットでBARTを上回る一貫したROUGEスコアを達成した：CNNDM（+1.2 ROUGE-L）、NYT（+1.2 ROUGE-L）、XSum（+0.8 ROUGE-L）。
人間評価では、SeqCoはBARTと比較して有意に高い忠実度スコア（p < 0.05）を達成し、忠実度スコアの平均順位も低かった。
モデルは、元の文書に対してより多くの新規n-gramを含む要約を生成しており、事実整合性を損なわず、より強い抽象的要約能力を示している。
非常に抽象的であるXSumでは、生成要約を正例の視点として使用すると、ゴール要約のみを使用する場合より性能が劣り、初期学習段階での生成品質に敏感であることが示唆された。
アブレーションスタディの結果、単一の対照的損失（例：x-y）を用いることで十分であり、複数の損失は30％の学習時間増加に対して最小限の性能向上しか得られないことが判明した。
novel n-gram統計の結果、幻覚を低減させつつ、要約生成の抽象的行動を維持またはわずかに向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。