Skip to main content
QUICK REVIEW

[論文レビュー] Sentence Simplification via Large Language Models

Yutao Feng, Jipeng Qiang|arXiv (Cornell University)|Feb 23, 2023
Text Readability and Simplification被引用数 22
ひとこと要約

この論文はGPT-3.5とChatGPTの零-shot/少数Shotによる文の単純化(SS)を評価し、英語のベンチマークで最先端手法を上回り、マルチリンガルにも一般化することを示し、人間の判断では出力が人間の単純化と同等であるとされている。

ABSTRACT

Sentence Simplification aims to rephrase complex sentences into simpler sentences while retaining original meaning. Large Language models (LLMs) have demonstrated the ability to perform a variety of natural language processing tasks. However, it is not yet known whether LLMs can be served as a high-quality sentence simplification system. In this work, we empirically analyze the zero-/few-shot learning ability of LLMs by evaluating them on a number of benchmark test sets. Experimental results show LLMs outperform state-of-the-art sentence simplification methods, and are judged to be on a par with human annotators.

研究の動機と目的

  • 確立されたSSベンチマークに対する大規模言語モデル(LLMs)の零-shot/少数-shot SS能力を評価する。
  • 監督付きおよび非監督SS手法と比較して、LLMs(GPT-3.5、ChatGPT)を比較する。
  • prompting strategies (T1, T2) とポルトガル語(Pt)およびスペイン語(Es)での多言語SSを探る。
  • 英語および多言語SSデータセットと人間の判断に対する頑健性を評価する。

提案手法

  • SS出力を導くための2つの手動指示プロンプト(T1とT2)を設計する。
  • 標準的な英語SSベンチマーク(TURKCORPUS、ASSET)でGPT-3.5とChatGPTを用いた零-shot/少数-shot SSを評価する。
  • ポルトガル語(Pt)およびスペイン語(Es)データセットを用いた多言語SSへの評価を拡張する。
  • 自動指標の主要メトリクとしてSARIを使用し、可読性指標としてFKGL(スペイン語ではFKGLは利用不可のためFRESを使用)を用い、人間の評価を報告する。
  • 監視型(PBMT-R, Dress-LS, DMASS-DCSS, ACCESS, MUSS-S)および非監視型(UNTS, BTTS10, MUSS-Unsup)のベースラインと比較する。
  • プロンプトの有効性(T1対T2)と単一/複数の参照を用いたfew-shot構成を分析する。

実験結果

リサーチクエスチョン

  • RQ1零-shot/少数-shotのLLMsは、最新の専門的SS手法と同等以上の性能でSSを実行できるか?
  • RQ2LLMsは多言語SSに一般化できるのか、プロンプトは言語を跨いだ性能にどのように影響するのか?
  • RQ3品質と可読性の点でLLMsは人間の単純化とどう比較されるか?
  • RQ4few-shot参照(単一 vs 複数)がSSの品質に及ぼす影響は?

主な発見

  • GPT-3.5とChatGPTは、英語のベンチマークにおいて単一-shot設定でしばしば最先端のSS手法を上回る。
  • ChatGPTは一般にASSET(En)でGPT-3.5より高いSARIを達成し、そのデータセットでMUSS-Sを上回る。
  • ChatGPTは強力な多言語SS能力を示し、ポルトガル語およびスペイン語データセットでMUSS-USを上回る。
  • 人間の評価は、LLMベースの単純化が適合性で人間が書いた単純化と同等であり、単純さと流暢さの指標が高いことを示している。
  • プロンプト設計(T1対T2)は性能に影響を与え、T1は一般にT2よりも高いSARIをデータセット全体で示す。
  • 複数の参照を用いたfew-shot設定は意味の保持とSS全体の品質を向上させるが、 shotが増えるにつれて効果は小さくなる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。