[論文レビュー] Sentence Simplification via Large Language Models
この論文はGPT-3.5とChatGPTの零-shot/少数Shotによる文の単純化(SS)を評価し、英語のベンチマークで最先端手法を上回り、マルチリンガルにも一般化することを示し、人間の判断では出力が人間の単純化と同等であるとされている。
Sentence Simplification aims to rephrase complex sentences into simpler sentences while retaining original meaning. Large Language models (LLMs) have demonstrated the ability to perform a variety of natural language processing tasks. However, it is not yet known whether LLMs can be served as a high-quality sentence simplification system. In this work, we empirically analyze the zero-/few-shot learning ability of LLMs by evaluating them on a number of benchmark test sets. Experimental results show LLMs outperform state-of-the-art sentence simplification methods, and are judged to be on a par with human annotators.
研究の動機と目的
- 確立されたSSベンチマークに対する大規模言語モデル(LLMs)の零-shot/少数-shot SS能力を評価する。
- 監督付きおよび非監督SS手法と比較して、LLMs(GPT-3.5、ChatGPT)を比較する。
- prompting strategies (T1, T2) とポルトガル語(Pt)およびスペイン語(Es)での多言語SSを探る。
- 英語および多言語SSデータセットと人間の判断に対する頑健性を評価する。
提案手法
- SS出力を導くための2つの手動指示プロンプト(T1とT2)を設計する。
- 標準的な英語SSベンチマーク(TURKCORPUS、ASSET)でGPT-3.5とChatGPTを用いた零-shot/少数-shot SSを評価する。
- ポルトガル語(Pt)およびスペイン語(Es)データセットを用いた多言語SSへの評価を拡張する。
- 自動指標の主要メトリクとしてSARIを使用し、可読性指標としてFKGL(スペイン語ではFKGLは利用不可のためFRESを使用)を用い、人間の評価を報告する。
- 監視型(PBMT-R, Dress-LS, DMASS-DCSS, ACCESS, MUSS-S)および非監視型(UNTS, BTTS10, MUSS-Unsup)のベースラインと比較する。
- プロンプトの有効性(T1対T2)と単一/複数の参照を用いたfew-shot構成を分析する。
実験結果
リサーチクエスチョン
- RQ1零-shot/少数-shotのLLMsは、最新の専門的SS手法と同等以上の性能でSSを実行できるか?
- RQ2LLMsは多言語SSに一般化できるのか、プロンプトは言語を跨いだ性能にどのように影響するのか?
- RQ3品質と可読性の点でLLMsは人間の単純化とどう比較されるか?
- RQ4few-shot参照(単一 vs 複数)がSSの品質に及ぼす影響は?
主な発見
- GPT-3.5とChatGPTは、英語のベンチマークにおいて単一-shot設定でしばしば最先端のSS手法を上回る。
- ChatGPTは一般にASSET(En)でGPT-3.5より高いSARIを達成し、そのデータセットでMUSS-Sを上回る。
- ChatGPTは強力な多言語SS能力を示し、ポルトガル語およびスペイン語データセットでMUSS-USを上回る。
- 人間の評価は、LLMベースの単純化が適合性で人間が書いた単純化と同等であり、単純さと流暢さの指標が高いことを示している。
- プロンプト設計(T1対T2)は性能に影響を与え、T1は一般にT2よりも高いSARIをデータセット全体で示す。
- 複数の参照を用いたfew-shot設定は意味の保持とSS全体の品質を向上させるが、 shotが増えるにつれて効果は小さくなる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。