[論文レビュー] ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large Language Models in Multilingual Learning
本論文は、7つのNLPタスクと37言語に跨るChatGPTの大規模なゼロSHOT評価を実施し、多言語性能を評価する。結果、ChatGPTは一般的に監視付きモデルと比べて劣る傾向で、英語バイアスを示すことがある。特に複雑なタスクで顕著。
Over the last few years, large language models (LLMs) have emerged as the most important breakthroughs in natural language processing (NLP) that fundamentally transform research and developments in the field. ChatGPT represents one of the most exciting LLM systems developed recently to showcase impressive skills for language generation and highly attract public attention. Among various exciting applications discovered for ChatGPT in English, the model can process and generate texts for multiple languages due to its multilingual training data. Given the broad adoption of ChatGPT for English in different problems and areas, a natural question is whether ChatGPT can also be applied effectively for other languages or it is necessary to develop more language-specific technologies. The answer to this question requires a thorough evaluation of ChatGPT over multiple tasks with diverse languages and large datasets (i.e., beyond reported anecdotes), which is still missing or limited in current research. Our work aims to fill this gap for the evaluation of ChatGPT and similar LLMs to provide more comprehensive information for multilingual NLP applications. While this work will be an ongoing effort to include additional experiments in the future, our current paper evaluates ChatGPT on 7 different tasks, covering 37 diverse languages with high, medium, low, and extremely low resources. We also focus on the zero-shot learning setting for ChatGPT to improve reproducibility and better simulate the interactions of general users. Compared to the performance of previous models, our extensive experimental results demonstrate a worse performance of ChatGPT for different NLP tasks and languages, calling for further research to develop better models and understanding for multilingual learning.
研究の動機と目的
- 英語以外の多様なNLPタスクでChatGPTや類似LLMを評価し、多言語の能力と制約を理解する。
- 実世界の多言語環境を反映するため、高・中・低・極低資源言語をカバーする。
- ゼロショット学習を優先し、一般的なユーザー対話を模倣し再現性を最大化する。
- 文脈のために最先端の監督付きモデルとの比較ベースラインを提供する。
提案手法
- 7つのNLPタスク:POS tagging, NER, relation extraction, natural language inference, question answering, common sense reasoning, and summarizationを対象にChatGPTを評価する。
- 高資源から極端に低資源までの37言語をゼロショットプロンプトでカバーする。
- 英語のタスク説明と言語別翻訳を用いてChatGPTにプロンプトを提供し、タスク固有のルールで出力を解析する。
- 結果を文脈化するため、POSにはXLM-R、NERにはDAMO、REにはmT5-ILなど、強力な監督付きベースラインと比較する。
- ゼロショット結果を一般ユーザーの性能の主な根拠として報告し、言語関連のバイアスについて議論する。

実験結果
リサーチクエスチョン
- RQ1複数のNLPタスクにおいて、広範な言語セットでのゼロショットでのChatGPTの性能はどうか?
- RQ2ChatGPTは英語言語バイアスを示すか、またそれは高資源から極低資源言語にかけてどのように現れるか?
- RQ3各タスクにおいて、ChatGPTの多言語性能は最先端の監督付きモデルとどう比較されるか?
- RQ4非英語のNLPアプリケーションで多言語LLMを使用する際の実践的含意は何か?
主な発見
- ChatGPTのゼロショット性能は、対象とした多くのタスクと言語において、最先端の監督付きモデルより一般的に劣る。
- ChatGPTは英語の方が他の言語よりも良く、特に複雑な推論を要求するタスクで顕著。
- 英語プロンプトは、多くの言語で多くのタスクにおいて、ChatGPTに対して言語別プロンプトと同等またはより良い結果を出す傾向がある。
- ChatGPTの多言語評価は7タスクと37言語を対象とし、重要なギャップと言語固有モデルまたは改善の必要性を浮き彫りにしている。
- 本研究は英語へのバイアスを示し、LLMによる多言語学習を改善するさらなる研究を求めている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。