QUICK REVIEW

[논문 리뷰] News Summarization and Evaluation in the Era of GPT-3

Tanya Goyal, Junyi Jessy Li|arXiv (Cornell University)|2022. 09. 26.

Topic Modeling인용 수 181

한 줄 요약

본 논문은 뉴스 데이터셋에서 GPT-3 프롬프트 요약과 미세조정 모델을 비교하고, 인간이 GPT-3 출력물을 선호함을 보이며 표준 자동 평가 지표가 이를 평가하는 데 어려움을 겪는다는 것을 보여준다; 또한 키워드/측면 요약을 탐구하고 대규모 생성 요약 말뭉치와 인간 판단을 공개한다.

ABSTRACT

The recent success of prompting large language models like GPT-3 has led to a paradigm shift in NLP research. In this paper, we study its impact on text summarization, focusing on the classic benchmark domain of news summarization. First, we investigate how GPT-3 compares against fine-tuned models trained on large summarization datasets. We show that not only do humans overwhelmingly prefer GPT-3 summaries, prompted using only a task description, but these also do not suffer from common dataset-specific issues such as poor factuality. Next, we study what this means for evaluation, particularly the role of gold standard test sets. Our experiments show that both reference-based and reference-free automatic metrics cannot reliably evaluate GPT-3 summaries. Finally, we evaluate models on a setting beyond generic summarization, specifically keyword-based summarization, and show how dominant fine-tuning approaches compare to prompting. To support further research, we release: (a) a corpus of 10K generated summaries from fine-tuned and prompt-based models across 4 standard summarization benchmarks, (b) 1K human preference judgments comparing different systems for generic- and keyword-based summarization.

연구 동기 및 목표

Prompt 기반 GPT-3 요약이 표준 뉴스 요약 벤치마크에서 최첨단 미세조정 모델과 어떻게 비교되는지 평가한다.
GPT-3 프롬프트 요약에 대한 참조 기반 및 참조-free 자동 평가 지표의 신뢰성을 조사한다.
키워드 기반 및 측면 기반 요약을 포함하여 일반 요약을 넘는 특수한 설정에서의 GPT-3 프롬프트 요약을 살펴본다.
향후 연구를 지원하기 위한 대규모 생성 요약 말뭉치와 인간 선호도 등 리소스를 제공한다.

제안 방법

GPT-3 프롬프트 요약(text-davinci-002)을 BRIO 미세조정 모델 및 T0 프롬프트와 CNN/DM 및 BBC 기반 데이터의 인간 A/B 연구로 비교한다.
길이와 스타일의 공정한 비교를 위해 데이터셋 스타일(CNN/DM 대 XSum)과 일치하도록 프롬프트 길이를 조정한다.
GPT-3 프롬프트 vs 미세조정 요약에 대해 ROUGE, BLEU, METEOR, BERTScore, MoverScore, QA 기반 지표 등 자동 지표를 인간 판단과 비교 평가한다.
참조 없는 지표(SUPERT, BLANC, QuestEval, QAFactEval, FactCC, DAE, SummaC 등)가 인간 선호도와의 정렬성을 얼마나 잘 반영하는지 평가한다.
일반 요약을 넘는 키워드 중심 및 측면 중심 프롬프트를 탐구하고 GPT-3-D2를 CTRLSum 베이스라인과 비교한다.

실험 결과

연구 질문

RQ1프롬프트 기반 GPT-3 요약이 인간에 의해 전반적인 품질과 스타일 선호에서 최첨단 미세조정 모델과 어떻게 비교되는가?
RQ2표준 자동 평가 지표가 GPT-3 프롬프트 요약을 신뢰성 있게 평가하는가?
RQ3프롟프팅 접근법이 키워드 기반 및 측면 기반 요약 작업에 효과적으로 확장될 수 있는가?
RQ4향후 연구를 지원하기 위한 리소스(요약 및 인간 판단)는 무엇인가?

주요 결과

인간은 CNN/DM 및 BBC 스타일 프롬프트 전반에서 미세조정 모델보다 GPT-3 프롬프트 요약을 압도적으로 선호한다.
GPT-3 프롬프트 요약은 ROUGE 및 BLEU와 같은 기존 자동 지표에서 더 낮은 점수를 받더라도 인간 선호도에서 더 높은 선호를 얻는다.
참조 기반 자동 지표는 GPT-3 프롬프트 요약의 품질을 신뢰성 있게 평가하지 못하며 인간 판단에 비해 품질을 과소평가하는 경향이 있다.
참조 없는 지표도 GPT-3 프롬프트 출력에 대한 인간 선호를 일관되게 추적하지 못하며 사실성과 품질 신호가 데이터셋 간에 잘 정렬되지 않는다.
GPT-3 프롬프트는 키워드 기반 요약에서 강한 성능을 보여주지만 측면 기반 요약에서는 혼합된 결과를 나타내며, 고수준 측면에 대한 단순 프롬프트의 한계를 시사한다.
새로운 리소스 공개로 4개 벤치마크에서 10K 생성 요약과 1K 인간 선호 판단이 제공되어 향후 연구를 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.