[論文レビュー] LLaMA Beyond English: An Empirical Study on Language Capability Transfer
本論文は、LLaMAの言語生成と指示追従能力を非英語言語へ移転する方法を調査し、語彙拡張はしばしば不要であり、追加の事前学習データの1%未満で最先端に近い転移を達成することを示している。
In recent times, substantial advancements have been witnessed in large language models (LLMs), exemplified by ChatGPT, showcasing remarkable proficiency across a range of complex tasks. However, many mainstream LLMs (e.g. LLaMA) are pretrained on English-dominant corpus, which limits their performance in other non-English languages. In this paper, we focus on how to effectively transfer the capabilities of language generation and following instructions to a non-English language. To answer this question, we conduct an extensive empirical investigation based on LLaMA, accumulating over 1440 GPU hours. We analyze the impact of key factors such as vocabulary extension, further pretraining, and instruction tuning on transfer. To accurately assess the model's level of knowledge, we employ four widely used standardized testing benchmarks: C-Eval, MMLU, AGI-Eval, and GAOKAO-Bench. Furthermore, a comprehensive evaluation of the model's response quality is conducted, considering aspects such as accuracy, fluency, informativeness, logical coherence, and harmlessness, based on LLM-Eval, a benchmarks consisting instruction tasks from 17 diverse categories. Our evaluation results demonstrate that comparable performance to state-of-the-art transfer models can be achieved with less than 1% of the pretraining data, both in terms of knowledge alignment and response quality. Furthermore, the experimental outcomes across the thirteen low-resource languages also exhibit similar trends. We anticipate that the conclusions revealed by the experiments will aid the community in developing non-English LLMs.
研究の動機と目的
- LLaMAからの非英語言語転送において、語彙拡張、さらなる事前学習、および指示チューニングが必要かどうかを評価する。
- 非英語言語へ能力を転送するために、どれだけの事前学習および指示データが必要かを定量化する。
- 非英語言語における複数のベンチマークで知識レベルと応答品質を評価する。
- 転送中のクロスリンガル整合性とコードスイッチ現象を調査する。
提案手法
- 異なる事前学習規模を持つベースラインとしてLLaMA、LLaMA2、および中国語適応版を用いる。
- 転送への影響を評価するために語彙を拡張するかどうかを検討する。
- 100Bトークン規模までの中国語でのさらなる事前学習を実施する。
- BELLE(中国語)およびBactrain-X(52言語)データセットを用いて指示チューニングを適用する。
- C-Eval、MMLU、AGI-Eval、GAOKAO-Benchで知識転送を評価し、17カテゴリでLLM-Evalを用いて応答品質を評価する。
実験結果
リサーチクエスチョン
- RQ1語彙拡張は、数十億語程度の事前学習トークンで非英語転送を助けるのか、それとも妨げるのか?
- RQ2ターゲット言語で知識の整合性と応答品質を改善するには、追加の事前学習および指示データをどの規模必要とするのか?
- RQ3非英語転送はモデルの元の英語能力にどのような影響を与えるのか、そして多言語共同訓練は低下を緩和できるのか?
- RQ4事前学習中に学習されるクロスリンガル整合性は、転送時のコードスイッチ現象などの現象として示されるのか?
主な発見
- 語彙拡張は tens of billions のトレーニング規模では転送には有利な選択ではなく、元の語彙を用いた0.5Bの中国語トークンは、>30Bトークンで事前学習された拡張語彙モデルよりも優れている。
- 最大100Bトークンまでの追加事前学習は指示チューニングデータが少なくても応答品質を向上させるが、100B+では知識レベルを大きく高めるには不足する可能性がある。
- 応答品質の向上は、巨大な事前学習ではなく、数十万の指示データのみで達成される。
- 中国語単独転送訓練は、多言語共同訓練が用いられない限り英語能力を低下させるが、多言語共同訓練を用いればその喪失は緩和される。
- ベンチマーク(C-Eval、GAOKAO-Bench、MMLU、AGI-Eval)およびLLM-Evalで、本手法はトレーニングデータの<1%を使用して最先端の非英語LLMと同等の知識と応答品質を達成し、13の低リソース言語にも適用可能である。
- 転送中に観察されたコードスイッチ挙動(サンプルの約2%–5%)は、事前学習中に学習されたクロスリンガル意味的整合性を示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。