Skip to main content
QUICK REVIEW

[논문 리뷰] News Summarization and Evaluation in the Era of GPT-3

Tanya Goyal, Junyi Jessy Li|arXiv (Cornell University)|2022. 09. 26.
Topic Modeling인용 수 181
한 줄 요약

본 논문은 뉴스 데이터셋에서 GPT-3 프롬프트 요약과 미세조정 모델을 비교하고, 인간이 GPT-3 출력물을 선호함을 보이며 표준 자동 평가 지표가 이를 평가하는 데 어려움을 겪는다는 것을 보여준다; 또한 키워드/측면 요약을 탐구하고 대규모 생성 요약 말뭉치와 인간 판단을 공개한다.

ABSTRACT

The recent success of prompting large language models like GPT-3 has led to a paradigm shift in NLP research. In this paper, we study its impact on text summarization, focusing on the classic benchmark domain of news summarization. First, we investigate how GPT-3 compares against fine-tuned models trained on large summarization datasets. We show that not only do humans overwhelmingly prefer GPT-3 summaries, prompted using only a task description, but these also do not suffer from common dataset-specific issues such as poor factuality. Next, we study what this means for evaluation, particularly the role of gold standard test sets. Our experiments show that both reference-based and reference-free automatic metrics cannot reliably evaluate GPT-3 summaries. Finally, we evaluate models on a setting beyond generic summarization, specifically keyword-based summarization, and show how dominant fine-tuning approaches compare to prompting. To support further research, we release: (a) a corpus of 10K generated summaries from fine-tuned and prompt-based models across 4 standard summarization benchmarks, (b) 1K human preference judgments comparing different systems for generic- and keyword-based summarization.

연구 동기 및 목표

  • Prompt 기반 GPT-3 요약이 표준 뉴스 요약 벤치마크에서 최첨단 미세조정 모델과 어떻게 비교되는지 평가한다.
  • GPT-3 프롬프트 요약에 대한 참조 기반 및 참조-free 자동 평가 지표의 신뢰성을 조사한다.
  • 키워드 기반 및 측면 기반 요약을 포함하여 일반 요약을 넘는 특수한 설정에서의 GPT-3 프롬프트 요약을 살펴본다.
  • 향후 연구를 지원하기 위한 대규모 생성 요약 말뭉치와 인간 선호도 등 리소스를 제공한다.

제안 방법

  • GPT-3 프롬프트 요약(text-davinci-002)을 BRIO 미세조정 모델 및 T0 프롬프트와 CNN/DM 및 BBC 기반 데이터의 인간 A/B 연구로 비교한다.
  • 길이와 스타일의 공정한 비교를 위해 데이터셋 스타일(CNN/DM 대 XSum)과 일치하도록 프롬프트 길이를 조정한다.
  • GPT-3 프롬프트 vs 미세조정 요약에 대해 ROUGE, BLEU, METEOR, BERTScore, MoverScore, QA 기반 지표 등 자동 지표를 인간 판단과 비교 평가한다.
  • 참조 없는 지표(SUPERT, BLANC, QuestEval, QAFactEval, FactCC, DAE, SummaC 등)가 인간 선호도와의 정렬성을 얼마나 잘 반영하는지 평가한다.
  • 일반 요약을 넘는 키워드 중심 및 측면 중심 프롬프트를 탐구하고 GPT-3-D2를 CTRLSum 베이스라인과 비교한다.

실험 결과

연구 질문

  • RQ1프롬프트 기반 GPT-3 요약이 인간에 의해 전반적인 품질과 스타일 선호에서 최첨단 미세조정 모델과 어떻게 비교되는가?
  • RQ2표준 자동 평가 지표가 GPT-3 프롬프트 요약을 신뢰성 있게 평가하는가?
  • RQ3프롟프팅 접근법이 키워드 기반 및 측면 기반 요약 작업에 효과적으로 확장될 수 있는가?
  • RQ4향후 연구를 지원하기 위한 리소스(요약 및 인간 판단)는 무엇인가?

주요 결과

  • 인간은 CNN/DM 및 BBC 스타일 프롬프트 전반에서 미세조정 모델보다 GPT-3 프롬프트 요약을 압도적으로 선호한다.
  • GPT-3 프롬프트 요약은 ROUGE 및 BLEU와 같은 기존 자동 지표에서 더 낮은 점수를 받더라도 인간 선호도에서 더 높은 선호를 얻는다.
  • 참조 기반 자동 지표는 GPT-3 프롬프트 요약의 품질을 신뢰성 있게 평가하지 못하며 인간 판단에 비해 품질을 과소평가하는 경향이 있다.
  • 참조 없는 지표도 GPT-3 프롬프트 출력에 대한 인간 선호를 일관되게 추적하지 못하며 사실성과 품질 신호가 데이터셋 간에 잘 정렬되지 않는다.
  • GPT-3 프롬프트는 키워드 기반 요약에서 강한 성능을 보여주지만 측면 기반 요약에서는 혼합된 결과를 나타내며, 고수준 측면에 대한 단순 프롬프트의 한계를 시사한다.
  • 새로운 리소스 공개로 4개 벤치마크에서 10K 생성 요약과 1K 인간 선호 판단이 제공되어 향후 연구를 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.