QUICK REVIEW

[論文レビュー] PolyLM: An Open Source Polyglot Large Language Model

Xiangpeng Wei, Haoran Wei|arXiv (Cornell University)|Jul 12, 2023

Topic Modeling被引用数 14

ひとこと要約

PolyLMは、1.7Bおよび13Bサイズのオープンソース多言語LLMを、640Bトークンでのカリキュラム学習と多言語自己指導で訓練し、英語能力を維持しつつ非英語の性能を強化する。

ABSTRACT

Large language models (LLMs) demonstrate remarkable ability to comprehend, reason, and generate following nature language instructions. However, the development of LLMs has been primarily focused on high-resource languages, such as English, thereby limiting their applicability and research in other languages. Consequently, we present PolyLM, a multilingual LLM trained on 640 billion (B) tokens, avaliable in two model sizes: 1.7B and 13B. To enhance its multilingual capabilities, we 1) integrate bilingual data into training data; and 2) adopt a curriculum learning strategy that increases the proportion of non-English data from 30% in the first stage to 60% in the final stage during pre-training. Further, we propose a multilingual self-instruct method which automatically generates 132.7K diverse multilingual instructions for model fine-tuning. To assess the model's performance, we collect several existing multilingual tasks, including multilingual understanding, question answering, generation, and translation. Extensive experiments show that PolyLM surpasses other open-source models such as LLaMA and BLOOM on multilingual tasks while maintaining comparable performance in English. Our models, alone with the instruction data and multilingual benchmark, are available at: \url{https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation}.

研究の動機と目的

Open-source multilingual LLMのギャップを埋めるためにPolyLMを13Bおよび1.7Bサイズで作成する。
640Bトークンの多言語事前訓練コーパスを18言語と32%の非英語データで活用する。
カリキュラム学習を導入して英語知識を低資源言語へ移転させる。
MultiAlpacaを用いた多言語指示データを開発して多言語SFTを改善する。
理解・生成・翻訳能力を評価する多言語ベンチマークを作成する。

提案手法

68%英語および32%多言語データに加え、7.5Bのコードデータと1Bの平行多言語データを含む640Bトークンの事前訓練コーパスを組成する。
1.7B/13Bモデルに対して24/40層のデコーダー専用Transformer、RoPE統合、Pre-LN安定化を用いる。
言語識別、ルールベースおよびMLベースの品質フィルタリング、デデュプリケーションを含むデータ前処理パイプラインを適用する。
英語中心のデータから開始し、2段階目で高品質な多言語データを徐々に増加させるカリキュラム学習を適用する。
SFTのために11言語にわたる132,701のタスクを含む多言語自己指示データセットであるMultiAlpacaを作成する。
15言語にまたがるNLU、知識、NLG、MTタスクをカバーする多言語ベンチマークを構築する。

実験結果

リサーチクエスチョン

RQ1PolyLMは18言語で強力な多言語能力を達成しつつ英語性能を維持できるか。
RQ2カリキュラム学習はクロスリンガル移転と多言語指示遵守を改善するか。
RQ3多言語自己指示データ（MultiAlpaca）はゼロショット・少数ショットの多言語タスクにどのように影響するか。
RQ4PolyLMはBLOOM/LLaMAなどのオープンソースモデルと多言語ベンチマークで比較してどうか。
RQ5データセット構成とトークナイザ設計が多言語圧縮とカバー率に与える影響はどのようか。

主な発見

PolyLM-13BおよびPolyLM-1.7Bは同等サイズのオープンソースモデルより多言語タスクで優れている。
カリキュラム学習は英語能力を維持しつつ多言語性能を大幅に向上させる。
多言語指示データは多言語のゼロショット能力を高める。
PolyLMはカバーされる言語全体で複数のベースラインよりトークン圧縮性が高く、英語の圧縮はBLOOM/LLaMAと同等。
モデル、指示データ、および多言語ベンチマークは提供されたModelScopeリンクで公開されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。