[论文解读] Sentence Simplification via Large Language Models
本论文评估 GPT-3.5 和 ChatGPT 在句子简化 (SS) 的零-shot/少-shot 能力,并发现它们在英语基准上优于现有最先进方法且具备多语言泛化能力,人工评估认为其输出与人类简化相当。
Sentence Simplification aims to rephrase complex sentences into simpler sentences while retaining original meaning. Large Language models (LLMs) have demonstrated the ability to perform a variety of natural language processing tasks. However, it is not yet known whether LLMs can be served as a high-quality sentence simplification system. In this work, we empirically analyze the zero-/few-shot learning ability of LLMs by evaluating them on a number of benchmark test sets. Experimental results show LLMs outperform state-of-the-art sentence simplification methods, and are judged to be on a par with human annotators.
研究动机与目标
- 评估大语言模型(LLMs)在既定 SS 基准上的零-shot/少-shot 能力。
- 将 LLM(GPT-3.5、ChatGPT)与有监督和无监督的 SS 方法进行对比。
- 探索提示策略(T1、T2)以及葡萄牙语和西班牙语的多语言 SS。
- 评估对英语及多语言 SS 数据集的鲁棒性,并结合人工评估。
提出的方法
- 设计两个手工指令提示(T1 和 T2)来引导 SS 输出。
- 使用 GPT-3.5 和 ChatGPT 在标准英语 SS 基准(TURKCORPUS、ASSET)上评估零-shot/少-shot SS。
- 将评估扩展到多语言 SS,使用葡萄牙语(Pt)和西班牙语(Es)数据集。
- 以 SARI 作为主要自动评估指标,FKGL(Spanish 不可用;使用 FRES)作为可读性指标;并报告人工评估。
- 与有监督(PBMT-R、Dress-LS、DMASS-DCSS、ACCESS、MUSS-S)和无监督(UNTS、BTTS10、MUSS-Unsup)基线进行比较。
- 分析提示有效性(T1 与 T2)以及带单/多参考的少-shot配置。
实验结果
研究问题
- RQ1零-shot/少-shot 的 LLM 能否达到或超过专用 SS 方法的 state-of-the-art?
- RQ2LLMs 是否能泛化到多语言 SS,以及提示在不同语言上的性能影响?
- RQ3LLMs 在质量和可读性方面与人类简化相比如何?
- RQ4少-shot 参考(单个 vs 多个)对 SS 质量的影响?
主要发现
- GPT-3.5 与 ChatGPT 在英语基准中,在单-shot 设置下往往优于现有最先进的 SS 方法。
- ChatGPT 通常在 ASSET(En)上获得比 GPT-3.5 更高的 SARI,并在该数据集上超越 MUSS-S。
- ChatGPT 展示出强大的多语言 SS 能力,在葡萄牙语和西班牙语数据集中超越 MUSS-US。
- 人工评估表明基于 LLM 的简化在充足性方面与人类撰写的简化相当,且在简洁性和流畅性指标上表现强劲。
- 提示设计(T1 与 T2)会影响性能,在跨数据集上通常 T1 比 T2 产生更高的 SARI。
- 带单/多参考的少-shot 配置提高了意义保持和整体 SS 质量,尽管随着更多 shots 收益递减。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。