[論文レビュー] BYOL: Bring Your Own Language Into LLMs
BYOLは、言語のデジタルフットプリントに合わせてLLMを開発するための統一的で言語認識を備えた枠組みを提示します。低リソース言語の全スタックデータ精製と、極端に低リソースな言語の翻訳経由の包含を含み、公開ベンチマークとモデルを提供します。
Large Language Models (LLMs) exhibit strong multilingual capabilities, yet remain fundamentally constrained by the severe imbalance in global language resources. While over 7,000 languages are spoken worldwide, only a small subset (fewer than 100) has sufficient digital presence to meaningfully influence modern LLM training. This disparity leads to systematic underperformance, cultural misalignment, and limited accessibility for speakers of low-resource and extreme-low-resource languages. To address this gap, we introduce Bring Your Own Language (BYOL), a unified framework for scalable, language-aware LLM development tailored to each language's digital footprint. BYOL begins with a language resource classification that maps languages into four tiers (Extreme-Low, Low, Mid, High) using curated web-scale corpora, and uses this classification to select the appropriate integration pathway. For low-resource languages, we propose a full-stack data refinement and expansion pipeline that combines corpus cleaning, synthetic text generation, continual pretraining, and supervised finetuning. Applied to Chichewa and Maori, this pipeline yields language-specific LLMs that achieve approximately 12 percent average improvement over strong multilingual baselines across 12 benchmarks, while preserving English and multilingual capabilities via weight-space model merging. For extreme-low-resource languages, we introduce a translation-mediated inclusion pathway, and show on Inuktitut that a tailored machine translation system improves over a commercial baseline by 4 BLEU, enabling high-accuracy LLM access when direct language modeling is infeasible. Finally, we release human-translated versions of the Global MMLU-Lite benchmark in Chichewa, Maori, and Inuktitut, and make our codebase and models publicly available at https://github.com/microsoft/byol .
研究の動機と目的
- LLMにおける資源の不均衡に起因する多言語のパフォーマンス不足の解決の必要性を動機付ける。
- 言語を4段階の階層に分類し、それに応じた統合経路を選択する統一的なBYOLフレームワークを提案する。
- 低資源言語の全スタックデータ精製と継続的事前学習を開発し、LLMの性能を向上させる。
- 直接的なモデリングが現実的でない場合に備え、極端に低資源な言語の翻訳経由包含を導入してアクセスを可能にする。
- 再現性と広い言語アクセス性を支えるベンチマーク、モデル、コードを公開する。
提案手法
- 言語リソース分類システムを定義し、言語を Extreme-Low、Low、Mid、High の4段階にマッピングする( curated web-scale コーパから基づく)。
- Low-resource 言語について、コーパスクリーニング、合成テキスト生成、継続的事前学習、監督付きファインチューニングを組み合わせた全スタックパイプラインを実装し、言語特化型LLMを作成する。
- 英語と多言語能力を重み空間モデル統合で維持しつつ、言語特化と多言語モデルを組み合わせる。
- Extreme-Low-resource 言語については、直接的な言語モデリングが困難な場合に翻訳経由包含の経路を適用し、適切な機械翻訳を用いてLLMアクセスを可能にする。
実験結果
リサーチクエスチョン
- RQ1階層化された言語リソース分類が、スケーラブルで言語認識を備えたLLM開発を可能にするか。
- RQ2低資源言語における言語特化データの精製と継続的な事前学習は、多言語ベースラインと比較して測定可能な改善をもたらすか。
- RQ3ウェイトスペースのモデル統合は、ターゲット言語を専門化しつつ英語および多言語能力を維持できるか。
- RQ4直接モデリングが不可能な極端に低資源な言語に対して、翻訳経由包含は有効か。
- RQ5BYOLの下でチ chisewa、Maori、Inuktitut のベンチマークと報告された改善はどの程度得られるか。
主な発見
- ChichewaおよびMaoriの言語特化パイプラインは、強力な多言語ベースラインを12ベンチマークにわたり平均約12%改善。
- ウェイトスペースのモデル統合は、ターゲット言語を専門化しつつ英語および多言語能力を維持する。
- Inuktitutでは、翻訳経由包含に用いた特別設計の機械翻訳システムが商用ベースラインに対してBLEUを4改善。
- Chichewa、Maori、InuktitutのグローバルMMLU-Liteベンチマークを人間訳とともに公開。
- コードベースとモデルを公開して再現性を支援。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。