Skip to main content
QUICK REVIEW

[논문 리뷰] Sentence Simplification via Large Language Models

Yutao Feng, Jipeng Qiang|arXiv (Cornell University)|2023. 02. 23.
Text Readability and Simplification인용 수 22
한 줄 요약

이 논문은 문장 단순화(SS)에 대해 GPT-3.5와 ChatGPT의 제로-/래피-shot 성능을 평가하고, 영어 벤치마크에서 최첨단 방법을 능가하며 다언어 일반화가 가능하고, 인간 평가에서도 그들의 산출물이 인간의 단순화와 비슷한 수준임을 확인한다.

ABSTRACT

Sentence Simplification aims to rephrase complex sentences into simpler sentences while retaining original meaning. Large Language models (LLMs) have demonstrated the ability to perform a variety of natural language processing tasks. However, it is not yet known whether LLMs can be served as a high-quality sentence simplification system. In this work, we empirically analyze the zero-/few-shot learning ability of LLMs by evaluating them on a number of benchmark test sets. Experimental results show LLMs outperform state-of-the-art sentence simplification methods, and are judged to be on a par with human annotators.

연구 동기 및 목표

  • 대 established SS 벤치마크에서 대형 언어 모델(LLMs)의 제로-/few-shot SS 능력을 평가한다.
  • LLMs(GPT-3.5, ChatGPT)를 감독 학습 및 비감독 학습 SS 방법과 비교한다.
  • 프롬프트 전략(T1, T2)과 포르투갈어(Pt) 및 스페인어(Es)에서의 다언어 SS를 탐구한다.
  • 영어 및 다언어 SS 데이터셋과 인간 판단에 대한 안정성을 평가한다.

제안 방법

  • SS 출력 지침을 안내하기 위한 두 가지 수동 명령 프롬프트(T1 및 T2)를 설계한다.
  • 표준 영어 SS 벤치마크(TURKCORPUS, ASSET)에서 GPT-3.5와 ChatGPT의 제로-/few-shot SS를 평가한다.
  • 포르투갈어(Pt) 및 스페인어(Es) 데이터세트를 사용하여 다언어 SS 평가를 확장한다.
  • 주요 자동 지표로 SARI를 사용하고 읽기 편의 지표로 FKGL(FKGL은 스페인어에 대해 사용할 수 없으므로 FRES를 사용)을 사용하며 인간 평가를 보고한다.
  • 감독 학습( PBMT-R, Dress-LS, DMASS-DCSS, ACCESS, MUSS-S) 및 비감독 학습( UNTS, BTTS10, MUSS-Unsup) 벤치마크와 비교한다.
  • 프롬프트 효율성(T1 vs. T2)과 Single/Multi 참조를 통한 few-shot 구성을 분석한다.

실험 결과

연구 질문

  • RQ1제로-/few-shot LLM이 현재의 최첨단 특수 SS 방법과 동일 수준의 SS를 수행할 수 있는가?
  • RQ2LLMs가 다언어 SS로 일반화할 수 있는가, 그리고 프롬프트가 언어 간 성능에 어떤 영향을 미치는가?
  • RQ3LLMs와 인간의 단순화 간 품질 및 가독성은 어떻게 비교되는가?
  • RQ4few-shot 참조(단일 대 다수)가 SS 품질에 미치는 영향은 무엇인가?

주요 결과

  • GPT-3.5와 ChatGPT는 영어 벤치마크에서 단일 샷 설정에서 종종 최첨단 SS 방법보다 우수하다.
  • ChatGPT는 일반적으로 ASSET(En)에서 GPT-3.5보다 높은 SARI를 달성하고 해당 데이터셋에서 MUSS-S를 능가한다.
  • ChatGPT는 포르투갈어와 스페인어 데이터에서 MUSS-US를 능가하는 강력한 다언어 SS 능력을 보인다.
  • 인간 평가에서 LLM 기반 단순화는 적합성에서 인간이 작성한 단순화와 동등한 수준이며, 단순성 및 유창성 지표에서 강한 성능을 보인다.
  • 프롬프트 설계(T1 vs. T2)가 성능에 영향을 주며, 데이터셋 전반에서 T1이 일반적으로 T2보다 더 높은 SARI를 산출한다.
  • 참조가 여러 개인 few-shot 설정은 의미 보존 및 전반적인 SS 품질을 향상시키지만, 샷 수가 많아질수록 수익이 줄어든다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.