Skip to main content
QUICK REVIEW

[论文解读] News Summarization and Evaluation in the Era of GPT-3

Tanya Goyal, Junyi Jessy Li|arXiv (Cornell University)|Sep 26, 2022
Topic Modeling被引用 181
一句话总结

本文将 GPT-3 提示生成的摘要与对新闻数据集进行微调的模型进行比较,结果表明人类更偏好 GPT-3 的输出,而标准的自动评估指标在评估它们时存在困难;本文还探索基于关键词/方面的摘要,并发布一个大型生成摘要语料库与人类偏好判断数据。

ABSTRACT

The recent success of prompting large language models like GPT-3 has led to a paradigm shift in NLP research. In this paper, we study its impact on text summarization, focusing on the classic benchmark domain of news summarization. First, we investigate how GPT-3 compares against fine-tuned models trained on large summarization datasets. We show that not only do humans overwhelmingly prefer GPT-3 summaries, prompted using only a task description, but these also do not suffer from common dataset-specific issues such as poor factuality. Next, we study what this means for evaluation, particularly the role of gold standard test sets. Our experiments show that both reference-based and reference-free automatic metrics cannot reliably evaluate GPT-3 summaries. Finally, we evaluate models on a setting beyond generic summarization, specifically keyword-based summarization, and show how dominant fine-tuning approaches compare to prompting. To support further research, we release: (a) a corpus of 10K generated summaries from fine-tuned and prompt-based models across 4 standard summarization benchmarks, (b) 1K human preference judgments comparing different systems for generic- and keyword-based summarization.

研究动机与目标

  • 评估基于提示的 GPT-3 摘要在标准新闻摘要基准上相较于最先进的微调模型的表现。
  • 研究面向 GPT-3 提示摘要的有参考和无参考的自动评估指标的可靠性。
  • 在超越通用摘要的专业设定中检验 GPT-3 提示摘要的表现,包括基于关键词和基于方面的摘要。
  • 提供支持性资源,包括大量生成摘要和人类偏好作为未来研究的基础。

提出的方法

  • 使用基于 CNN/DM 和 BBC 的数据,通过人类 A/B 研究,将 GPT-3 提示摘要(text-davinci-002)与 BRIO 微调模型和 T0 提示进行比较。
  • 调整提示长度以匹配数据集风格(CNN/DM 与 XSum),以在长度和风格上确保公平比较。
  • 针对 GPT-3 提示与微调摘要,将自动评估指标(ROUGE、BLEU、METEOR、BERTScore、MoverScore、QA 基于的指标等)与人类判断进行比较。
  • 评估无参考指标(SUPERT、BLANC、QuestEval、QAFactEval、FactCC、DAE、SummaC 等)与人类偏好的一致性。
  • 在关键词聚焦和方面聚焦的提示上进行扩展探索,将 GPT-3-D2 与 CTRLSum 基线进行比较。

实验结果

研究问题

  • RQ1基于提示的 GPT-3 摘要在总体质量和风格偏好方面与最先进的微调模型相比如何?
  • RQ2标准的自动评估指标是否能可靠评估 GPT-3 提示的摘要?
  • RQ3提示方法是否能够有效扩展到关键词基和方面基的摘要任务?
  • RQ4哪些资源(摘要和人类判断)可以支持未来基于 GPT-3 的摘要研究?

主要发现

  • 在人类偏好方面,在 CNN/DM 与 BBC 风格的提示下,人工明显更偏好 GPT-3 提示的摘要胜过微调模型。
  • 尽管在传统自动指标如 ROUGE 和 BLEU 上得分较低,GPT-3 提示的摘要仍获得更高的人工偏好。
  • 基于参考的自动评估指标在评估 GPT-3 提示摘要时往往无法可靠地反映质量,常常低估相对于人类判断的质量。
  • 无参考指标也未能始终如一地跟踪 GPT-3 提示输出的人类偏好,事实性和质量信号在不同数据集之间未能很好对齐。
  • GPT-3 提示在关键词型摘要上表现强劲,但在基于方面的摘要上结果参差,凸显简单提示对高层次方面的局限。
  • 新资源发布提供 10K 个生成摘要和 1K 个跨 4 个基准的人类偏好判断,以支持进一步研究。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。