QUICK REVIEW

[논문 리뷰] On Learning to Summarize with Large Language Models as References

Yixin Liu, Shi, Kejian|arXiv (Cornell University)|2023. 05. 23.

Topic Modeling인용 수 10

한 줄 요약

이 논문은 요약의 참조로 LLM을 다루는 설정을 연구하고, LLM 기반 평가 신호를 대조 학습과 결합하여 더 작은 모델을 학습시키며, 인간 평가와의 정렬성을 분석한다.

ABSTRACT

Recent studies have found that summaries generated by large language models (LLMs) are favored by human annotators over the original reference summaries in commonly used summarization datasets. Therefore, we study an LLM-as-reference learning setting for smaller text summarization models to investigate whether their performance can be substantially improved. To this end, we use LLMs as both oracle summary generators for standard supervised fine-tuning and oracle summary evaluators for efficient contrastive learning that leverages the LLMs' supervision signals. We conduct comprehensive experiments with source news articles and find that (1) summarization models trained under the LLM-as-reference setting achieve significant performance improvement in both LLM and human evaluations; (2) contrastive learning outperforms standard supervised fine-tuning under both low and high resource settings. Our experimental results also enable a meta-analysis of LLMs' summary evaluation capacities under a challenging setting, showing that LLMs are not well-aligned with human evaluators. Particularly, our expert human evaluation reveals remaining nuanced performance gaps between LLMs and our fine-tuned models, which LLMs fail to capture. Thus, we call for further studies into both the potential and challenges of using LLMs in summarization model development.

연구 동기 및 목표

추상적 요약을 위한 학습 설정으로 LLM-참조를 조사한다.
LLM 기반 평가 신호(GPTScore, GPTRank)가 소형 모델의 학습을 어떻게 안내할 수 있는지 평가한다.
LLM 가이던스를 활용하기 위한 대조 학습을 적용하고 이를 MLE 기준선과 비교한다.
LLM 기반 평가와 인간 판단 간의 정합성을 평가하기 위해 인간 평가와 메타 분석을 수행한다.

제안 방법

모델 g(예: BART)는 LLM으로부터 얻은 준참조 요약에 대해 MLE로 학습된다.
LLM을 사용하여 GPTScore 또는 GPTRank를 통해 품질 신호를 제공하고 이를 학습에 활용한다.
BRIO 스타일의 대조 학습을 도입하여 더 높은 품질의 요약이 더 낮은 품질의 요약보다 우선하도록 한다.
교차 엔트로피 손실과 대조 손실을 결합하여 다중 작업 목표(L_mul)로 만든다.
대조적 순위를 위해 다양한 빔 탐색으로 여러 후보 요약을 생성한다.
자연어 기반 자동 평가를 위해 ROUGE를 사용하고 LLM 참조 및 LLM 기반 지표(GPTScore, GPTRank)로 평가한다.
인간 쌍대 평가(중요도, 일관성, 전반적) 및 메타 분석을 위한 전문가 주석을 수행한다.

실험 결과

연구 질문

RQ1소형 모델이 LLM 가이던스로 학습되면 LLM 기반 평가하에서 LLM의 성능에 맞출 수 있는가?
RQ2GPTScore와 GPTRank 신호가 표준 MLE와 비교해 학습에 어떤 영향을 미치는가?
RQ3LLM 기반 평가에서의 개선이 인간 판단과 일치하는가?
RQ4메타 분석에서 드러난 LLM-참조 설정의 한계와 위험은 무엇인가?

주요 결과

문장	GPTScore	R1	R2	길이
GPT3D3	-22.62	-0.271	100.0	100.0	85.4
BART	-59.55	-0.789	46.85	24.38	79.0
GPT3D2	-41.21	-0.547	55.40	33.72	78.7
Alpaca	-44.82	-0.567	51.53	30.18	81.8
ChatGPT	-45.12	-0.498	58.14	37.46	92.0
BART.ChatGPT	-41.08	-0.446	54.26	33.98	93.7
BART.GPT3D3	-36.13	-0.420	59.50	40.70	85.6
BRIO.GPT3D3	-26.20	-0.318	56.21	36.47	83.7

LLM 기반 평가 하에서 LLM 수준의 성능에 도달할 수 있으며, LLM 가이드 신호와 대조 학습으로 학습된 소형 모델도 가능.
BRIO.GPT3D3는 약 100개의 대조 예시만으로도 참조 LLM(GPT3D3)과 유사한 GPTScore를 달성한다.
대조 학습은 자동 평가 신호(GPTScore/GPTRank)를 활용하는 데 있어 MLE 학습보다 종종 우수하다.
GPTRank 기반 평가 결과는 참조 LLM에 따라 달라지며(ChatGPT vs GPT-4), 평가 방법에 민감함을 시사한다.
인간 평가에 따르면 소형 모델은 아직 인간 판단에서 LLM을 능가하지 못해 LLM 기반 평가와 인간 평가 간의 불일치를 강조한다.
메타 분석은 LLM 기반 평가가 학습에 유용할 수 있지만 인간 선호도와의 충실한 정합성에는 한계가 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.