QUICK REVIEW

[論文レビュー] Sentence Simplification via Large Language Models

Yutao Feng, Jipeng Qiang|arXiv (Cornell University)|Feb 23, 2023

Text Readability and Simplification被引用数 22

ひとこと要約

この論文はGPT-3.5とChatGPTの零-shot/少数Shotによる文の単純化（SS）を評価し、英語のベンチマークで最先端手法を上回り、マルチリンガルにも一般化することを示し、人間の判断では出力が人間の単純化と同等であるとされている。

ABSTRACT

Sentence Simplification aims to rephrase complex sentences into simpler sentences while retaining original meaning. Large Language models (LLMs) have demonstrated the ability to perform a variety of natural language processing tasks. However, it is not yet known whether LLMs can be served as a high-quality sentence simplification system. In this work, we empirically analyze the zero-/few-shot learning ability of LLMs by evaluating them on a number of benchmark test sets. Experimental results show LLMs outperform state-of-the-art sentence simplification methods, and are judged to be on a par with human annotators.

研究の動機と目的

確立されたSSベンチマークに対する大規模言語モデル（LLMs）の零-shot/少数-shot SS能力を評価する。
監督付きおよび非監督SS手法と比較して、LLMs（GPT-3.5、ChatGPT）を比較する。
prompting strategies (T1, T2) とポルトガル語（Pt）およびスペイン語（Es）での多言語SSを探る。
英語および多言語SSデータセットと人間の判断に対する頑健性を評価する。

提案手法

SS出力を導くための2つの手動指示プロンプト（T1とT2）を設計する。
標準的な英語SSベンチマーク（TURKCORPUS、ASSET）でGPT-3.5とChatGPTを用いた零-shot/少数-shot SSを評価する。
ポルトガル語（Pt）およびスペイン語（Es）データセットを用いた多言語SSへの評価を拡張する。
自動指標の主要メトリクとしてSARIを使用し、可読性指標としてFKGL（スペイン語ではFKGLは利用不可のためFRESを使用）を用い、人間の評価を報告する。
監視型（PBMT-R, Dress-LS, DMASS-DCSS, ACCESS, MUSS-S）および非監視型（UNTS, BTTS10, MUSS-Unsup）のベースラインと比較する。
プロンプトの有効性（T1対T2）と単一/複数の参照を用いたfew-shot構成を分析する。

実験結果

リサーチクエスチョン

RQ1零-shot/少数-shotのLLMsは、最新の専門的SS手法と同等以上の性能でSSを実行できるか？
RQ2LLMsは多言語SSに一般化できるのか、プロンプトは言語を跨いだ性能にどのように影響するのか？
RQ3品質と可読性の点でLLMsは人間の単純化とどう比較されるか？
RQ4few-shot参照（単一 vs 複数）がSSの品質に及ぼす影響は？

主な発見

GPT-3.5とChatGPTは、英語のベンチマークにおいて単一-shot設定でしばしば最先端のSS手法を上回る。
ChatGPTは一般にASSET（En）でGPT-3.5より高いSARIを達成し、そのデータセットでMUSS-Sを上回る。
ChatGPTは強力な多言語SS能力を示し、ポルトガル語およびスペイン語データセットでMUSS-USを上回る。
人間の評価は、LLMベースの単純化が適合性で人間が書いた単純化と同等であり、単純さと流暢さの指標が高いことを示している。
プロンプト設計（T1対T2）は性能に影響を与え、T1は一般にT2よりも高いSARIをデータセット全体で示す。
複数の参照を用いたfew-shot設定は意味の保持とSS全体の品質を向上させるが、 shotが増えるにつれて効果は小さくなる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。