[論文レビュー] Zero-Shot Cross-Lingual Summarization via Large Language Models
この論文は、さまざまな大規模言語モデル(LLM)を用いたゼロショットのクロスリンガル要約(CLS)を評価し、GPT-4がLLMの中で最先端のゼロショットCLSを達成し、mBART-50のような微調整済みベースラインにも匹敵できる一方、オープンソースLLMはエンドツーエンドCLSで苦戦する、という結論を示している。
Given a document in a source language, cross-lingual summarization (CLS) aims to generate a summary in a different target language. Recently, the emergence of Large Language Models (LLMs), such as GPT-3.5, ChatGPT and GPT-4, has attracted wide attention from the computational linguistics community. However, it is not yet known the performance of LLMs on CLS. In this report, we empirically use various prompts to guide LLMs to perform zero-shot CLS from different paradigms (i.e., end-to-end and pipeline), and provide a preliminary evaluation on the generated summaries. We find that ChatGPT and GPT-4 originally prefer to produce lengthy summaries with detailed information. These two LLMs can further balance informativeness and conciseness with the help of an interactive prompt, significantly improving their CLS performance. Experimental results on three widely-used CLS datasets show that GPT-4 achieves state-of-the-art zero-shot CLS performance, and performs competitively compared with the fine-tuned mBART-50. Moreover, we also find some multi-lingual and bilingual LLMs (i.e., BLOOMZ, ChatGLM-6B, Vicuna-13B and ChatYuan) have limited zero-shot CLS ability. Due to the composite nature of CLS, which requires models to perform summarization and translation simultaneously, accomplishing this task in a zero-shot manner is even a challenge for LLMs. Therefore, we sincerely hope and recommend future LLM research could use CLS as a testbed.
研究の動機と目的
- 大規模言語モデルはタスク固有の微調整なしでクロスリンガル要約を実行できるかを調査する。
- エンドツーエンドCLSプロンプト(直接、翻訳→要約、要約→翻訳)の直感的・対話的改良を評価する。
- ゼロショットCLSの性能を、微調整済みベースライン(mBART-50)と比較する。
- プロンプト設計と対話型 promptingがCLS出力の情報量と簡潔さにどう影響するかを理解する。
提案手法
- 3つのエンドツーエンドCLSプロンプトを設計する:直接(Dir)、翻訳→要約(TS)、要約→翻訳(ST)。
- 初期生成後に要約をより簡潔にするための対話型(Inta)ステップをプロンプトに追加する。
- 非会話型と会話型のLLM(例:Davinci-003、ChatGPT、GPT-4、BLOOMZ、ChatGLM-6B、Vicuna-13B、ChatYuan)をCLSデータセットで評価する。
- 自動評価指標としてROUGE-1/2/LとBERTScoreを使用する;また、整合性・関連性・一貫性・流暢さについてLLMベースの評価も行う。
- ゼロショットのLLM性能を、強力なベースラインとしての微調整済みmBART-50と比較する。
- デコード、言語カバレッジ、ヒューマン評価の必要性に関連する制限を議論する。
実験結果
リサーチクエスチョン
- RQ1複数のデータセットと言語方向において、異なるLLMがゼロショットCLSをどれだけうまく実行できるか。
- RQ2コー・ツー・ツー(CoT)と対話的 promptingを備えたエンドツーエンドCLSプロンプトは、ゼロショットCLSの性能を向上させるか。
- RQ3GPT-4(および他のLLM)はゼロショットCLSで、mBART-50のような微調整済みベースラインにどれくらい近づくか。
- RQ4オープンソースLLMは強力なゼロショットCLS能力を示すか、それとも性能が制限されるのか。
主な発見
- GPT-4は評価対象のLLMの中でゼロショットCLSの最先端を達成する。
- 対話型LLM(例:ChatGPT、GPT-4)は対話的プロンプトを用いると一部の指標で微調整済みベースラインを上回ることがある。
- エンドツーエンドのCoTプロンプト(Dir、TS、ST)は直接プロンプトを上回り、エンドツーエンドCLSにCoTが有効であることを示唆する。
- 対話型プロンプトは要約をより簡潔にし、ChatGPTとGPT-4のCLS性能を大きく向上させる可能性があるが、すべての評価で常にそうとは限らない。
- オープンソースLLM(BLOOMZ、ChatGLM-6B、Vicuna-13B、ChatYuan)は、特に長文に対してゼロショットCLS能力が限定的で、GPT-4に劣る。
- ゼロショットCLSは翻訳と要約の複合タスクで依然として難しく、CLSは将来のLLM研究のテストベッドとして提案されている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。