QUICK REVIEW

[论文解读] News Summarization and Evaluation in the Era of GPT-3

Tanya Goyal, Junyi Jessy Li|arXiv (Cornell University)|Sep 26, 2022

Topic Modeling被引用 181

一句话总结

本文将 GPT-3 提示生成的摘要与对新闻数据集进行微调的模型进行比较，结果表明人类更偏好 GPT-3 的输出，而标准的自动评估指标在评估它们时存在困难；本文还探索基于关键词/方面的摘要，并发布一个大型生成摘要语料库与人类偏好判断数据。

ABSTRACT

The recent success of prompting large language models like GPT-3 has led to a paradigm shift in NLP research. In this paper, we study its impact on text summarization, focusing on the classic benchmark domain of news summarization. First, we investigate how GPT-3 compares against fine-tuned models trained on large summarization datasets. We show that not only do humans overwhelmingly prefer GPT-3 summaries, prompted using only a task description, but these also do not suffer from common dataset-specific issues such as poor factuality. Next, we study what this means for evaluation, particularly the role of gold standard test sets. Our experiments show that both reference-based and reference-free automatic metrics cannot reliably evaluate GPT-3 summaries. Finally, we evaluate models on a setting beyond generic summarization, specifically keyword-based summarization, and show how dominant fine-tuning approaches compare to prompting. To support further research, we release: (a) a corpus of 10K generated summaries from fine-tuned and prompt-based models across 4 standard summarization benchmarks, (b) 1K human preference judgments comparing different systems for generic- and keyword-based summarization.

研究动机与目标

评估基于提示的 GPT-3 摘要在标准新闻摘要基准上相较于最先进的微调模型的表现。
研究面向 GPT-3 提示摘要的有参考和无参考的自动评估指标的可靠性。
在超越通用摘要的专业设定中检验 GPT-3 提示摘要的表现，包括基于关键词和基于方面的摘要。
提供支持性资源，包括大量生成摘要和人类偏好作为未来研究的基础。

提出的方法

使用基于 CNN/DM 和 BBC 的数据，通过人类 A/B 研究，将 GPT-3 提示摘要（text-davinci-002）与 BRIO 微调模型和 T0 提示进行比较。
调整提示长度以匹配数据集风格（CNN/DM 与 XSum），以在长度和风格上确保公平比较。
针对 GPT-3 提示与微调摘要，将自动评估指标（ROUGE、BLEU、METEOR、BERTScore、MoverScore、QA 基于的指标等）与人类判断进行比较。
评估无参考指标（SUPERT、BLANC、QuestEval、QAFactEval、FactCC、DAE、SummaC 等）与人类偏好的一致性。
在关键词聚焦和方面聚焦的提示上进行扩展探索，将 GPT-3-D2 与 CTRLSum 基线进行比较。

实验结果

研究问题

RQ1基于提示的 GPT-3 摘要在总体质量和风格偏好方面与最先进的微调模型相比如何？
RQ2标准的自动评估指标是否能可靠评估 GPT-3 提示的摘要？
RQ3提示方法是否能够有效扩展到关键词基和方面基的摘要任务？
RQ4哪些资源（摘要和人类判断）可以支持未来基于 GPT-3 的摘要研究？

主要发现

在人类偏好方面，在 CNN/DM 与 BBC 风格的提示下，人工明显更偏好 GPT-3 提示的摘要胜过微调模型。
尽管在传统自动指标如 ROUGE 和 BLEU 上得分较低，GPT-3 提示的摘要仍获得更高的人工偏好。
基于参考的自动评估指标在评估 GPT-3 提示摘要时往往无法可靠地反映质量，常常低估相对于人类判断的质量。
无参考指标也未能始终如一地跟踪 GPT-3 提示输出的人类偏好，事实性和质量信号在不同数据集之间未能很好对齐。
GPT-3 提示在关键词型摘要上表现强劲，但在基于方面的摘要上结果参差，凸显简单提示对高层次方面的局限。
新资源发布提供 10K 个生成摘要和 1K 个跨 4 个基准的人类偏好判断，以支持进一步研究。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。