[논문 리뷰] Summarization is (Almost) Dead
이 논문은 대형 언어 모델(LLMs)의 제로샷 요약이 여러 작업에서 인간이 작성한 요약 및 미세조정 모델의 요약보다 선호되는 경우가 많음을 보여주며, 기존 요약 연구 방향에 의문을 제기합니다.
How well can large language models (LLMs) generate summaries? We develop new datasets and conduct human evaluation experiments to evaluate the zero-shot generation capability of LLMs across five distinct summarization tasks. Our findings indicate a clear preference among human evaluators for LLM-generated summaries over human-written summaries and summaries generated by fine-tuned models. Specifically, LLM-generated summaries exhibit better factual consistency and fewer instances of extrinsic hallucinations. Due to the satisfactory performance of LLMs in summarization tasks (even surpassing the benchmark of reference summaries), we believe that most conventional works in the field of text summarization are no longer necessary in the era of LLMs. However, we recognize that there are still some directions worth exploring, such as the creation of novel datasets with higher quality and more reliable evaluation methods.
연구 동기 및 목표
- 다섯 가지 작업(단일 뉴스, 다중 뉴스, 대화, 코드, 다중언어 간 요약)에서 LLM의 제로샷 요약 품질을 평가한다.
- 사람 주도 평가를 통해 LLM이 생성한 요약과 인간이 작성한 참고 요약, 미세조정 모델 요약을 비교한다.
- 다양한 요약 시스템의 사실적 일관성 및 환각성 콘텐츠를 조사한다.
제안 방법
- 훈련 데이터 도 leakage를 피하기 위해 컷오프 이후의 데이터를 보장하는 다섯 가지 요약 작업에 대한 새 평가 데이터 세트를 구성한다.
- 각 작업당 GPT-3 (text-davinci-003), GPT-3.5, GPT-4 및 1–2개의 미세조정 베이스라인을 쌍대 인간 판단으로 평가한다.
- 쌍대 승률을 측정하고 해석자 간 일치를 위해 Cohen’s κ를 계산한다.
- 문장 수준의 환각을 분석하고 이를 고유적(intrinsic) 대 외재적(extrinsic) 범주로 분류한다.
- 작업별 분석이 포함된 사례 연구와 부록을 제공한다.
실험 결과
연구 질문
- RQ1LLM이 생성한 요약이 다섯 가지 작업에서 인간이 작성한 요약 및 미세조정 모델 요약보다 인간 평가자에게 선호되는가?
- RQ2LLM 요약이 인간 작성 요약이나 미세조정 요약보다 사실상 더 일관되고 외재적 환각이 적은가?
- RQ3LLM 기반 요약의 한계는 무엇이며 향후 연구는 어디에 초점을 맞춰야 하는가?
- RQ4LLM 시대에 요약 데이터셋과 평가 방법론은 어떻게 진화해야 하는가?
- RQ5주제 범위 및 길이 유연성 측면에서 LLM과 전통적 미세조정 모델 간 차이점은 무엇인가?
주요 결과
| 시스템 | 단일 뉴스 | 다중 뉴스 | 다중언어 간 요약 | 대화 | 코드 |
|---|---|---|---|---|---|
| GPT-4 | 8 | 5 | 16 | 5 | 9 |
| Human | 13 | 62 | 15 | 15 | 46 |
- LLM이 생성한 요약은 다섯 가지 작업 전반에 걸쳐 인간 평가자들에게 인간이 작성한 요약 및 미세조정 모델 요약보다 지속적으로 선호된다.
- GPT-4 및 기타 LLM은 일부 작업에서 문장 수준 환각 비율이 몇몇 인간이 작성한 참고 자료에 비해 낮은 것으로 나타났으나, 사실 일관성이 낮은 맥락에서는 외재적 환각이 두드러진다.
- 다중 뉴스 및 코드 요약 상황에서 인간이 작성한 참고 자료의 사실 일관성이 낮아지는 이유 중 외재적 환각이 크게 설명한다.
- 미세조정 모델은 일반적으로 고정 길이의 출력을 생성하는 경향이 있으며 입력이 여러 주제를 다루는 경우 주제를 놓칠 수 있는 반면, LLM은 길이를 조정하고 더 넓은 주제 범위를 달성한다.
- 최근 ACL/EMNLP/COLING/NAACL 논문에 대한 대규모 설문은 전통적 요약 연구의 약 70%가 LLM 시대에 덜 의미 있을 수 있음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.