QUICK REVIEW

[논문 리뷰] Zero-Shot Cross-Lingual Summarization via Large Language Models

Jiaan Wang, Yunlong Liang|arXiv (Cornell University)|2023. 02. 28.

Topic Modeling인용 수 16

한 줄 요약

본 논문은 다양한 대형 언어 모델(LLM)을 사용한 제로샷 크로스링구얼 요약(CLS)을 평가하고, GPT-4가 LLM 중 최첨단 제로샷 CLS 성능을 달성하며 mBART-50 같은 미세조정 baselines와 견줄 수 있고, 오픈소스 LLM은 엔드-투-엔드 CLS에서 어려움을 겪는다는 것을 보여준다.

ABSTRACT

Given a document in a source language, cross-lingual summarization (CLS) aims to generate a summary in a different target language. Recently, the emergence of Large Language Models (LLMs), such as GPT-3.5, ChatGPT and GPT-4, has attracted wide attention from the computational linguistics community. However, it is not yet known the performance of LLMs on CLS. In this report, we empirically use various prompts to guide LLMs to perform zero-shot CLS from different paradigms (i.e., end-to-end and pipeline), and provide a preliminary evaluation on the generated summaries. We find that ChatGPT and GPT-4 originally prefer to produce lengthy summaries with detailed information. These two LLMs can further balance informativeness and conciseness with the help of an interactive prompt, significantly improving their CLS performance. Experimental results on three widely-used CLS datasets show that GPT-4 achieves state-of-the-art zero-shot CLS performance, and performs competitively compared with the fine-tuned mBART-50. Moreover, we also find some multi-lingual and bilingual LLMs (i.e., BLOOMZ, ChatGLM-6B, Vicuna-13B and ChatYuan) have limited zero-shot CLS ability. Due to the composite nature of CLS, which requires models to perform summarization and translation simultaneously, accomplishing this task in a zero-shot manner is even a challenge for LLMs. Therefore, we sincerely hope and recommend future LLM research could use CLS as a testbed.

연구 동기 및 목표

대형 언어 모델이 작업별 미세조정 없이 크로스링구얼 요약을 수행할 수 있는지 연구한다.
인터랙티브 정제(refinement)가 포함되거나 포함되지 않은 엔드투엔드 CLS 프롬프트(직접, 번역-후-요약, 요약-후-번역) 평가.
제로샷 CLS 성능을 미세조정된 baselines(mBART-50)과 비교한다.
프롬프트 설계와 인터랙티브 프롬프팅이 CLS 출력의 정보성 및 간결성에 미치는 영향을 이해한다.

제안 방법

세 가지 엔드투엔드 CLS 프롬프트를 설계한다: 직접(Dir), 번역-후-요약(TS), 요약-후-번역(ST).
초기 생성 후 요약을 더 간결하게 만들기 위한 인터랙티브(Inta) 단계를 프롬프팅에 추가한다.
비대화형 및 대화형 LLM(Davinci-003, ChatGPT, GPT-4, BLOOMZ, ChatGLM-6B, Vicuna-13B, ChatYuan)을 CLS 데이터셋에서 평가한다.
자동 평가 지표로 ROUGE-1/2/L 및 BERTScore를 사용하고, 일관성, 관련성, 일관성, 유창성에 대해 LLM 기반 평가도 수행한다.
제로샷 LLM 성능을 강력한 baselines인 미세조정된 mBART-50와 비교한다.
디코딩, 언어 범위, 인간 평가 필요성 등 한계점을 논의한다.

실험 결과

연구 질문

RQ1다양한 데이터셋과 언어 방향에서 서로 다른 LLM이 제로샷 CLS를 얼마나 잘 수행할 수 있는가?
RQ2CoT(사고과정) 및 인터랙티브 프롬프팅이 제로샷 CLS 성능을 향상시키는가?
RQ3GPT-4(및 다른 LLM)은 제로샷 CLS에서 mBART-50와 같은 미세조정 baselines에 얼마나 근접하는가?
RQ4오픈소스 LLM은 강력한 제로샷 CLS 능력을 보이는가, 아니면 성능이 제한적인가?

주요 결과

GPT-4가 평가된 LLM 중에서 최첨단 제로샷 CLS 성능을 달성한다.
대화형 LLM(예: ChatGPT, GPT-4)은 인터랙티브 프롬프팅을 사용할 때 일부 지표에서 미세조정 baseline을 능가할 수 있다.
엔드투엔드 CoT 프롬프트(Dir, TS, ST)는 직접 프롬프트를 능가하여 엔드투엔드 CLS에 CoT가 도움을 준다는 것을 시사한다.
인터랙티브 프롬프팅은 더 간결한 요약을 도출하고 ChatGPT와 GPT-4의 CLS 성능을 크게 향상시킬 수 있지만, 모든 평가에서 항상 그런 것은 아니다.
오픈소스 LLM들(BLOOMZ, ChatGLM-6B, Vicuna-13B, ChatYuan)은 특히 더 긴 문서에서 제로샷 CLS 능력이 제한적이며 GPT-4보다 뒤처진다.
제로샷 CLS는 번역과 요약의 복합 작업이므로 여전히 도전적이며, CLS는 향후 LLM 연구를 위한 테스트베드로 제안된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.