[论文解读] Zero-Shot Cross-Lingual Summarization via Large Language Models
这篇论文评估零-shot 跨语言摘要(CLS)使用各种大语言模型(LLMs),结果显示 GPT-4 在 LLMs 中达到最先进的零-shot CLS,并且能够媲美像 mBART-50 这样的微调基线,而开源 LLMs 在端到端 CLS 上表现不佳。
Given a document in a source language, cross-lingual summarization (CLS) aims to generate a summary in a different target language. Recently, the emergence of Large Language Models (LLMs), such as GPT-3.5, ChatGPT and GPT-4, has attracted wide attention from the computational linguistics community. However, it is not yet known the performance of LLMs on CLS. In this report, we empirically use various prompts to guide LLMs to perform zero-shot CLS from different paradigms (i.e., end-to-end and pipeline), and provide a preliminary evaluation on the generated summaries. We find that ChatGPT and GPT-4 originally prefer to produce lengthy summaries with detailed information. These two LLMs can further balance informativeness and conciseness with the help of an interactive prompt, significantly improving their CLS performance. Experimental results on three widely-used CLS datasets show that GPT-4 achieves state-of-the-art zero-shot CLS performance, and performs competitively compared with the fine-tuned mBART-50. Moreover, we also find some multi-lingual and bilingual LLMs (i.e., BLOOMZ, ChatGLM-6B, Vicuna-13B and ChatYuan) have limited zero-shot CLS ability. Due to the composite nature of CLS, which requires models to perform summarization and translation simultaneously, accomplishing this task in a zero-shot manner is even a challenge for LLMs. Therefore, we sincerely hope and recommend future LLM research could use CLS as a testbed.
研究动机与目标
- 研究大型语言模型在不进行任务专用微调的情况下,能否完成跨语言摘要。
- 评估端到端 CLS 提示(直接、先翻译再摘要、先摘要再翻译)有无互动精炼的情况。
- 将多种 LLM 的零-shot CLS 表现与微调基线(mBART-50)进行对比。
- 理解提示设计与互动提示如何影响 CLS 输出的信息量与简洁性。
提出的方法
- 设计三个端到端的 CLS 提示:直接(Dir)、翻译后摘要(TS)和摘要后翻译(ST)。
- 在提示中加入一个互动(Inta)步骤,以在初次生成后使摘要更简洁。
- 在 CLS 数据集上评估非对话型和对话型 LLM(例如 Davinci-003、ChatGPT、GPT-4、BLOOMZ、ChatGLM-6B、Vicuna-13B、ChatYuan)。
- 使用 ROUGE-1/2/L 和 BERTScore 作为自动评估指标;并进行基于 LLM 的连贯性、相关性、一致性和流畅度评估。
- 将零-shot LLM 表现与强基线微调的 mBART-50 进行比较。
- 讨论与解码、语言覆盖范围相关的局限性,以及需要人工评估的问题。
实验结果
研究问题
- RQ1不同 LLM 在多数据集和多语言方向上,零-shot CLS 的表现如何?
- RQ2具有链式思维(CoT)和交互提示的端到端 CLS 提示是否能提升零-shot CLS 表现?
- RQ3GPT-4(及其他 LLM)在零-shot CLS 上与像 mBART-50 这样的微调基线相差多近?
- RQ4开源 LLMs 是否展现出强力的零-shot CLS 能力,还是表现受限?
主要发现
- GPT-4 在所评估的 LLMs 中实现了最先进的零-shot CLS。
- 对话型 LLM(如 ChatGPT、GPT-4)在使用互动提示时,在某些指标上可以超越微调基线。
- 端到端的 CoT 提示(Dir、TS、ST)优于直接提示,表明 CoT 有助于端到端 CLS。
- 互动提示产生更简洁的摘要,并可显著提升 ChatGPT 和 GPT-4 的 CLS 表现,尽管并非所有评估都如此。
- 开源 LLMs(BLOOMZ、ChatGLM-6B、Vicuna-13B、ChatYuan)在零-shot CLS 能力方面显示有限,尤其是在较长文档上,落后于 GPT-4。
- 由于翻译与摘要的组合任务,零-shot CLS 仍具挑战性;将 CLS 作为未来 LLM 研究的测试基准。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。