QUICK REVIEW

[論文レビュー] CroissantLLM: A Truly Bilingual French-English Language Model

Manuel Faysse, Patrick Fernandes|arXiv (Cornell University)|Feb 1, 2024

Topic Modeling被引用数 8

ひとこと要約

CroissantLLM は 1.3B のバイリンガルなフランス語-英語言語モデルで、英語とフランス語のデータ比率を 1:1 で学習し、オープンデータセット、チェックポイント、フランス語に焦点を当てたベンチマーク（FrenchBench）を公開し、透明性の評価（81%）を実施。

ABSTRACT

We introduce CroissantLLM, a 1.3B language model pretrained on a set of 3T English and French tokens, to bring to the research and industrial community a high-performance, fully open-sourced bilingual model that runs swiftly on consumer-grade local hardware. To that end, we pioneer the approach of training an intrinsically bilingual model with a 1:1 English-to-French pretraining data ratio, a custom tokenizer, and bilingual finetuning datasets. We release the training dataset, notably containing a French split with manually curated, high-quality, and varied data sources. To assess performance outside of English, we craft a novel benchmark, FrenchBench, consisting of an array of classification and generation tasks, covering various orthogonal aspects of model performance in the French Language. Additionally, rooted in transparency and to foster further Large Language Model research, we release codebases, and dozens of checkpoints across various model sizes, training data distributions, and training steps, as well as fine-tuned Chat models, and strong translation models. We evaluate our model through the FMTI framework, and validate 81 % of the transparency criteria, far beyond the scores of even most open initiatives. This work enriches the NLP landscape, breaking away from previous English-centric work in order to strengthen our understanding of multilinguality in language models.

研究の動機と目的

LLMs の英語中心のバイアスに対処するため、英語とフランス語データをバランスさせた真のバイリンガルモデルを構築する。
効率的なオンデバイス推論のための高品質でオープンなバイリンガルトークナイザとトレーニングパイプラインを開発する。
研究と産業応用を促進するために、データセット、コード、チェックポイントなどの包括的リソースを公開する。
フランス語の理解と生成能力を評価する新しいフランス語評価スイート FrenchBench を導入する。
Foundation Model Transparency Index を用いてモデルの透明性を評価し、再現性を促進する。

提案手法

ロータリーポジションエンコーディングと 2048 コンテキスト長を備えたデコーダーベースのトランスフォーマー（Llama 系）を訓練する。
英語、フランス語、コードデータで適合させたカスタム 32000-token の SentencePiece トークナイザを使用して、バイリンガル生産性を向上させる。
英語-フランス語データ比率 1:1 のバランスの取れた多言語コーパスを構築し、フランス語、コード、英語データを 1.1T 個のユニークトークンにアップサンプして 3T-token 実行を行う。
Megatron-Deepspeed で Nvidia A100 ハードウェア上に事前訓練を行い、17日間の訓練体制（約 99,648 GPU 時間）と因果的言語モデリング目的を採用する。
新たなフランス語評価スイートとして FrenchBench を作成・公開し、再現性のために評価コードとデータセットを公開する。

実験結果

リサーチクエスチョン

RQ1本当にバイリンガルな訓練設定（1:1 英語-フランス語データ）が、言語間のパフォーマンスやバイアスにどのような影響を与えるか？
RQ21.3B のバイリンガルモデルは、効率的なオンデバイス推論を維持しつつ、フランス語機能を競争力のあるレベルに達し、英語バイアスを低く抑えることができるか？
RQ3カスタムバイリンガルトークナイゼーションとデータキュレーションが多言語モデルの性能に与える影響は？
RQ4CroissantLLM は新たに提案された FrenchBench で、英語中心または多言語のベースラインと比較してどのように性能を示すか？

主な発見

著者らは CroissantLLM の Foundation Model Transparency Index の基準の 81% を満たすことを検証し、高い透明性を示している。
1:1 英語-フランス語データ比とバイリンガルトークナイザは、効率的なエンコーディングを生み出し、バランスの取れたバイリンガルパフォーマンスを可能にする。
最大モデルはトークン対パラメータ比 3000:1 で訓練され、オンデバイスの効率を重視した推論指向の訓練戦略を強調している。
最終訓練ミックスは、さまざまなフランス語と英語ソースから約 1.1T のユニークトークンと、かなりの並列データ（400M 文ペア、約 36B トークン）を含む。
CroissantLLM は消費者用ハードウェアでの効率的な実行を想定して設計されており、エッジ推論のターゲットと省エネ志向の訓練を考慮している。
FrenchBench は、英語ベンチマークを超える事実知識、生成、言語理解を測定する専用のフランス語評価スイートを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。