[論文レビュー] BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual Transfer
BUFFET は 54 言語の 15 タスクを固定の Few-shot 形式のテキスト対テキスト評価に統合し、多言語 LMs と転移手法を比較する benchmark を提供する。文脈内学習は Few-shot のクロスリンガル転送においてファインチューニングを下回ることが多い。
Despite remarkable advancements in few-shot generalization in natural language processing, most models are developed and evaluated primarily in English. To facilitate research on few-shot cross-lingual transfer, we introduce a new benchmark, called BUFFET, which unifies 15 diverse tasks across 54 languages in a sequence-to-sequence format and provides a fixed set of few-shot examples and instructions. BUFFET is designed to establish a rigorous and equitable evaluation framework for few-shot cross-lingual transfer across a broad range of tasks and languages. Using BUFFET, we perform thorough evaluations of state-of-the-art multilingual large language models with different transfer methods, namely in-context learning and fine-tuning. Our findings reveal significant room for improvement in few-shot in-context cross-lingual transfer. In particular, ChatGPT with in-context learning often performs worse than much smaller mT5-base models fine-tuned on English task data and few-shot in-language examples. Our analysis suggests various avenues for future research in few-shot cross-lingual transfer, such as improved pretraining, understanding, and future evaluations.
研究の動機と目的
- 多様なタスクと言語を横断する Few-shot クロスリンガル転送の厳密で公正な評価フレームワークを作成する。
- 異種混在の NLP タスクを単一のテキスト対テキスト形式に統一し、公正なモデル・手法の比較を可能にする。
- プロンプト設計やアーキテクチャの偏りを最小化するため、固定の Few-shot の例と多言語指示を提供する。
- ファインチューニングと文脈内学習転送設定の下で最先端の多言語 LLMs を評価する。
- とくに十分に表現されていない言語に対して Few-shot クロスリンガル転送を改善する課題と方向性を強調する。
提案手法
- 54 言語の 15 タスクを固定 k-shot デモンストレーション付きの単一のテキスト対テキスト形式に統一する。
- ターゲット言語ファインチューニング、英語ファインチューニング、英語+ターゲットファインチューニングを含む複数の転送手法を評価する。
- 英語とターゲット言語の指示・デモンストレーションを用いた文脈内学習アプローチと、Z-EICL のようなゼロショットベースラインを評価する。
- ファインチューニングと ICL の両方の設定で、instruction-tuned および non-instruction-tuned の LMs(mT5-base、BLOOM、BLOOMZ、mT0-xxl、ChatGPT を含む)を組み込む。
- cross-language 評価を可能にするため、英語、翻訳済み、手動翻訳済みプロンプトを用いてタスク指示を翻訳・標準化する。
- 分類、生成、抽出、構造化予測の八つの NLP タスクカテゴリーにわたる、翻訳ベースと現地語ベースのデータセットの多様な組み合わせを活用する。
- 三つの固定 k-shot セットを言語とタスクごとに評価し、言語間でマクロ平均を取って結果の変動を制御する。

実験結果
リサーチクエスチョン
- RQ1標準化されたベンチマークの下で、文脈内学習は Few-shot クロスリンガル転送においてファインチューニングと競合するか。
- RQ2特に表現が不十分な言語で、タスクと言語ごとに異なる転送手法の性能はどう変わるか。
- RQ3デモンストレーションと指示は転送品質にどのように影響し、モデルごとに最適な設定は異なるか。
- RQ4少数ショット領域における事前学習と instruction-tuning はクロスリンガル転送にどのような影響を及ぼすか。
- RQ5少数ショットのクロスリンガル転送のためのデータセット作成とモデル開発における今後の研究の道筋は何か。
主な発見
- 大規模な多言語 LLMs における文脈内学習は、英語データと少数ショットのターゲット言語の例でファインチューニングされた小規模モデルに劣ることが多い。
- 特にターゲット言語データを用いたファインチューニングは、表現が不十分な言語で文脈内学習よりも優れていることが多い。
- instruction-tuned モデルはゼロショット転送を改善できるが、デモンストレーションとの不整合により少数ショットでは性能が低下する可能性がある。
- 異なる k-shot デモンストレーション間の性能変動が大きく、文脈内学習はデモンストレーション選択に対してファインチューニングより感度が高い。
- 事前学習と instruction-tuning の選択は、転送手法自体よりも下流のクロスリンガル転送に著しく影響することがある。
- ChatGPT は生成タスクで優れている一方で、表現が少ない言語の識別系タスクでは劣る場合があり、小さめのモデルは一部の設定でより堅牢になり得る。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。