QUICK REVIEW

[論文レビュー] Summarization is (Almost) Dead

Xiao Pu, Mingqi Gao|arXiv (Cornell University)|Sep 18, 2023

Topic Modeling被引用数 32

ひとこと要約

本論文は、large language models (LLMs) のゼロショット要約が、多数のタスクで人間作成およびファインチューニングモデルの要約よりも好まれることが多いことを示しており、従来の要約研究の方向性に挑戦している。

ABSTRACT

How well can large language models (LLMs) generate summaries? We develop new datasets and conduct human evaluation experiments to evaluate the zero-shot generation capability of LLMs across five distinct summarization tasks. Our findings indicate a clear preference among human evaluators for LLM-generated summaries over human-written summaries and summaries generated by fine-tuned models. Specifically, LLM-generated summaries exhibit better factual consistency and fewer instances of extrinsic hallucinations. Due to the satisfactory performance of LLMs in summarization tasks (even surpassing the benchmark of reference summaries), we believe that most conventional works in the field of text summarization are no longer necessary in the era of LLMs. However, we recognize that there are still some directions worth exploring, such as the creation of novel datasets with higher quality and more reliable evaluation methods.

研究の動機と目的

5つのタスク（単一ニュース、マルチニュース、ダイアログ、コード、クロスリンガル）にわたるLLMのゼロショット要約品質を評価する。
人間が作成した参照要約およびファインチューニング済みモデルの要約とLLM生成要約を、人間の評価によって比較する。
異なる要約システムにおける事実的一貫性と幻視的内容（ハルシネーション）を調査する。

提案手法

トレーニングデータ漏洩を避けるため、データがカットオフ後の5つの要約タスク用の新規評価データセットを作成する。
各タスクについて、GPT-3 (text-davinci-003)、GPT-3.5、GPT-4、および1～2のファインチューニング済みベースラインを対比較の人間判断で評価する。
対比較勝率を測定し、アノテーター間の一致度をCohenのκで算出する。
文レベルの幻視を分析し、intrinsic（内在的） vs extrinsic（外在的）のカテゴリに分類する。
定性的ケーススタディとタスク固有の分析を含む付録を提供する。

実験結果

リサーチクエスチョン

RQ1LLMsは5つのタスク全体で、人間作成およびファインチューニング済み要約よりも人間評価者に好まれる要約を生成するのか？
RQ2LLMの要約は、人間作成またはファインチューニング済みの要約より、事実的一貫性が高く、外部の幻視が少ないのか？
RQ3LLMベースの要約の制限は何で、今後の研究はどこに焦点を当てるべきか？
RQ4要約データセットと評価手法は、LLM時代においてどのように進化すべきか？
RQ5トピックカバレッジと長さの柔軟性の点で、LLMsと伝統的なファインチューニング済みモデルにはどのような違いがあるか？

主な発見

システム	単一ニュース	マルチニュース	クロスリンガル	ダイアログ	コード
GPT-4	8	5	16	5	9
Human	13	62	15	15	46

LLM生成の要約は、5つのタスクすべてで、人間作成およびファインチューニング済みモデルの要約より人間評価者に一貫して好まれる。
GPT-4などの他のLLMは、いくつかのタスクで文レベルの幻視の割合が、いくつかの人間作成参照より低いことを示すが、事実的一貫性が乏しい文脈では外在的幻視が顕著である。
外在的幻視は、特にマルチニュースとコード要約において、いくつかの人間作成参照の事実的一貫性が低い主な説明要因である。
ファインチューニング済みモデルは固定長の出力を生成しやすく、入力が複数のトピックを含む場合にはトピックを見落とす可能性がある一方、LLMsは長さを適応させてより広いトピックカバレッジを達成する。
最近のACL/EMNLP/COLING/NAACL論文の大規模調査は、従来の要約研究の約70%がLLM時代にはあまり意味がない可能性を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。