QUICK REVIEW

[論文レビュー] News Summarization and Evaluation in the Era of GPT-3

Tanya Goyal, Junyi Jessy Li|arXiv (Cornell University)|Sep 26, 2022

Topic Modeling被引用数 181

ひとこと要約

この論文はニュースデータセットにおけるGPT-3の prompting 要約をファインチューニング済みモデルと比較し、人間はGPT-3出力を好む一方で標準的な自動指標はそれを適切に評価できないことを示す。さらにキーワード/アスペクト要約を探索し、大規模な生成要約コーパスと人間の判断を公開する。

ABSTRACT

The recent success of prompting large language models like GPT-3 has led to a paradigm shift in NLP research. In this paper, we study its impact on text summarization, focusing on the classic benchmark domain of news summarization. First, we investigate how GPT-3 compares against fine-tuned models trained on large summarization datasets. We show that not only do humans overwhelmingly prefer GPT-3 summaries, prompted using only a task description, but these also do not suffer from common dataset-specific issues such as poor factuality. Next, we study what this means for evaluation, particularly the role of gold standard test sets. Our experiments show that both reference-based and reference-free automatic metrics cannot reliably evaluate GPT-3 summaries. Finally, we evaluate models on a setting beyond generic summarization, specifically keyword-based summarization, and show how dominant fine-tuning approaches compare to prompting. To support further research, we release: (a) a corpus of 10K generated summaries from fine-tuned and prompt-based models across 4 standard summarization benchmarks, (b) 1K human preference judgments comparing different systems for generic- and keyword-based summarization.

研究の動機と目的

PromptベースのGPT-3要約が標準的なニュース要約ベンチマークで最先端のファインチューニングモデルとどう比較されるかを評価する。
GPT-3 prompting要約の参照基準ベースおよび参照なし自動評価指標の信頼性を調査する。
キーワードベースおよびアスペクトベースの要約を含む、一般的な要約を超えた設定でのGPT-3 prompting要約を検討する。
将来の研究を支援するリソースとして、大規模な生成要約コーパスと人間の嗜好データを提供する。

提案手法

CNN/DM および BBC 系データ上で、GPT-3 prompting要約（text-davinci-002）を BRIO ファインチューニングモデルおよび T0 プロンプトと人間のA/B研究で比較する。
長さとスタイルの公正な比較を確保するため、データセットのスタイル（CNN/DM vs XSum）に合わせてプロンプトの長さを調整する。
GPT-3 promptingとファインチューニング要約に対する人間の判断と自動指標（ROUGE、BLEU、METEOR、BERTScore、MoverScore、QAベース指標など）を評価する。
人間の嗜好と整合性の観点から、参照なし指標（SUPERT、BLANC、QuestEval、QAFactEval、FactCC、DAE、SummaC など）の適用可能性を評価する。
一般的な要約を超え、キーワード重視およびアスペクト重視のプロンプトを探索し、GPT-3-D2をCTRLSumベースラインと比較する。

実験結果

リサーチクエスチョン

RQ1プロンプトベースのGPT-3要約は、人間による全体的な品質とスタイルの好みで最先端のファインチューニングモデルと比較してどうか。
RQ2標準的な自動評価指標はGPT-3 prompting要約を信頼性高く評価できるか。
RQ3プロンプティング手法はキーワードベースおよびアスペクトベース要約タスクに効果的に拡張できるか。
RQ4将来の研究を支援するリソース（要約と人間判断）はGPT-3ベース要約にどのような価値を提供できるか。

主な発見

人間はCNN/DMおよびBBCスタイルのプロンプト全体で、ファインチューニング済みモデルよりもGPT-3 prompting要約を圧倒的に好む。
GPT-3 prompting要約は、ROUGEやBLEUなどの従来の自動指標で悪く点数化されるにもかかわらず、人間の嗜好でより高く評価される。
参照ベースの自動指標はGPT-3 prompting要約を信頼性高く評価できず、しばしば人間判断に比べて品質を過小評価する。
参照なし指標もGPT-3 prompting出力の人間の嗜好を一貫して追跡できず、事実性や品質信号がデータセット間で適切に整合していない。
GPT-3のプロンプトはキーワードベース要約の性能を強く示すが、アスペクトベース要約では結果がまちまちであり、高レベルのアスペクトには単純なプロンプトの限界を示している。
新しいリソース公開により、4ベンチマークで10Kの生成要約と1Kの人間嗜好判断が提供され、今後の研究を支援する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。