[論文レビュー] MEGA: Multilingual Evaluation of Generative AI
MEGAは、70言語で16のNLPタスクにわたり生成系LLMをベンチマークし、GPT-3.5、GPT-4、BLOOMZをファインチューニング済みベースラインと比較して、多言語機能と prompting戦略を評価する。
Generative AI models have shown impressive performance on many Natural Language Processing tasks such as language understanding, reasoning, and language generation. An important question being asked by the AI community today is about the capabilities and limits of these models, and it is clear that evaluating generative AI is very challenging. Most studies on generative LLMs have been restricted to English and it is unclear how capable these models are at understanding and generating text in other languages. We present the first comprehensive benchmarking of generative LLMs - MEGA, which evaluates models on standard NLP benchmarks, covering 16 NLP datasets across 70 typologically diverse languages. We compare the performance of generative LLMs including Chat-GPT and GPT-4 to State of the Art (SOTA) non-autoregressive models on these tasks to determine how well generative models perform compared to the previous generation of LLMs. We present a thorough analysis of the performance of models across languages and tasks and discuss challenges in improving the performance of generative LLMs on low-resource languages. We create a framework for evaluating generative LLMs in the multilingual setting and provide directions for future progress in the field.
研究の動機と目的
- 大規模言語モデルがファインチューニング済みSOTAモデルと比較して、多言語NLPタスクでどの程度の性能を発揮するかを評価する。
- 生成系LLMsが優れている言語・タスクと、苦戦している言語・タスクを特定する。特に低資源言語に焦点を当てる。
- prompting戦略(モノリンガル Prompt、ゼロショットクロスリンガル、Translate-Test)の分析と、それが多言語性能に与える影響。
- トークナイザー品質や事前学習データなどの要因を調査し、多言語評価におけるテストデータ汚染の懸念について議論する。
提案手法
- 5つのタスクファミリ(分類、QA、シーケンスラベリング、NLG、Responsible AI)にまたがる70言語の16のNLPデータセットをベンチマークする。
- OpenAI GPT-3.5 (text-davinci-003, gpt-3.5-turbo) および GPT-4 (gpt-4-32k)、プロンプトベースのベースラインとして BLOOMZ、さらに複数のファインチューニング済みベースライン(mBERT、mT5-base、XLM-R Large、TuLRv6 XXL、MuRIL など)を評価する。
- prompts を構築するために、5つの prompting コンポーネント(instruction、in-context exemplars、template、verbalizer、test input)を使用する。
- prompting戦略を比較する:Monolingual Prompting、Zero-Shot Cross-Lingual、Translate-Test;一貫性のために PromptSource ベースの英語テンプレートを適用する。
- 英語の検証データを用いて prompts を調整し、選択した prompts をすべての言語に適用する;few-shotの回数を固定する(ほとんどのタスクで8、長-contextタスクで4)。
- 多言語性能に影響を与える要因としてトークナイザの Fertility(サブワード生成)と事前学習データサイズを分析する;GPT-4のテストデータ汚染リスクを評価する。

実験結果
リサーチクエスチョン
- RQ1多様な言語とタスクにわたる多言語ベンチマークで、LLMsはファインチューニング済みSOTAモデルと比較してどのように性能を発揮するか?
- RQ2生成系LLMが最も高いまたは低い性能を示す言語と言語ファミリはどれで、なぜか?
- RQ3どのprompting戦略が最高の多言語性能をもたらし、タスクと言語によってどう異なるか?
- RQ4トークナイザー品質と事前学習データサイズは、言語間で観測される性能差をどの程度説明できるか?
- RQ5多言語評価結果に影響を与えるテストデータ汚染のリスクはどの程度か、そしてこれが解釈にどう影響するか?
主な発見
- LLMsはほとんどのタスクでファインチューニング済みSOTAモデルに遅れ、特に非英語言語で顕著だが、GPT-4は一部のケースでギャップを縮める。
- Translate-Test promptingは低リソース言語と非ラテン文字スクリプト言語で実質的な利得を生み出すことが多く、モノリンガル promptingの性能を超えることもある。一方、高リソース言語では利得は小さい。
- トークナイザのfertility(サブワード生成)は、低リソース言語のいくつかのタスクで性能と負の相関を示しており、トークン化の悪さが結果を劣化させることを示している。
- 言語ごとの事前学習データサイズは、PAWS-X、XNLI、XCOPA、XQuADなどのいくつかのタスクで性能と正の相関を示す;トークナイザー品質とデータサイズは多言語性能を説明する際に相互作用する。
- GPT-4は多くのデータセットでGPT-3.5モデルよりも大きな改善を示すが、事前学習データが限られている言語や複雑なスクリプトを持つ言語ではギャップが残る。
- prompt design choices (explanations, few-shot count) show varied impacts; some choices (like explanations) may have negligible effects on certain XCOPA tasks.

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。