[论文解读] BYOL: Bring Your Own Language Into LLMs
BYOL 提供一个统一的、面向语言特性的框架,用于开发符合语言数字足迹的大型语言模型,包括面向低资源语言的全栈数据精炼和通过翻译介入的极低资源语言纳入,配有公开的基准和模型。
Large Language Models (LLMs) exhibit strong multilingual capabilities, yet remain fundamentally constrained by the severe imbalance in global language resources. While over 7,000 languages are spoken worldwide, only a small subset (fewer than 100) has sufficient digital presence to meaningfully influence modern LLM training. This disparity leads to systematic underperformance, cultural misalignment, and limited accessibility for speakers of low-resource and extreme-low-resource languages. To address this gap, we introduce Bring Your Own Language (BYOL), a unified framework for scalable, language-aware LLM development tailored to each language's digital footprint. BYOL begins with a language resource classification that maps languages into four tiers (Extreme-Low, Low, Mid, High) using curated web-scale corpora, and uses this classification to select the appropriate integration pathway. For low-resource languages, we propose a full-stack data refinement and expansion pipeline that combines corpus cleaning, synthetic text generation, continual pretraining, and supervised finetuning. Applied to Chichewa and Maori, this pipeline yields language-specific LLMs that achieve approximately 12 percent average improvement over strong multilingual baselines across 12 benchmarks, while preserving English and multilingual capabilities via weight-space model merging. For extreme-low-resource languages, we introduce a translation-mediated inclusion pathway, and show on Inuktitut that a tailored machine translation system improves over a commercial baseline by 4 BLEU, enabling high-accuracy LLM access when direct language modeling is infeasible. Finally, we release human-translated versions of the Global MMLU-Lite benchmark in Chichewa, Maori, and Inuktitut, and make our codebase and models publicly available at https://github.com/microsoft/byol .
研究动机与目标
- 需要解决全球资源不均导致的多语种 LLMs 性能不足问题的动机。
- 提出一个统一的 BYOL 框架,将语言分为四个档次并据此选择整合路径。
- 为低资源语言开发全栈数据精炼与持续预训练,以提升 LLM 性能。
- 引入面向极低资源语言的翻译介入纳入,使在直接建模不可行时仍能获得访问能力。
- 发布基准、模型和代码以支持可重复性和跨语言的更广可及性。
提出的方法
- 定义一个将语言映射到四个档次的语言资源分类体系:极端低资源、低资源、中等、高资源,基于精心整理的网络规模语料库。
- 对低资源语言实现全栈管线:语料清洗、合成文本生成、持续预训练和监督微调,从而创建语言特定的 LLM。
- 通过权重空间模型合并来保留英语和多语言能力,以实现语言特定模型与多语言模型的融合。
- 对于极端低资源语言,应用翻译介入纳入路径,使在直接语言建模不可行时仍可访问 LLM,使用定制化的机器翻译。
实验结果
研究问题
- RQ1能否通过分层语言资源分类实现可扩展、面向语言感知的 LLM 开发?
- RQ2相较于多语言基线,语言特定数据精炼与持续预训练能否为低资源语言带来可衡量的提升?
- RQ3权重空间模型合并能否在为目标语言定制的同时保留英语和多语言能力?
- RQ4翻译介入纳入对于直接建模不可行的极端低资源语言是否有效?
- RQ5在 BYOL 框架下,切齐瓦语、毛利语和因纽特语等的基准与基线改进可以达到何种程度?
主要发现
- 切齐瓦语和毛利语的语言特定管线在 12 个基准上相对于强基线实现了约 12% 的平均提升。
- 权重空间模型合并在为目标语言定制的同时保留英语与多语言能力。
- 对于因纽特语,使用定制化机器翻译的翻译介入纳入提高 BLEU 指数比商用基线高出 4 点。
- 全球 MMLU-Lite 基准在切齐瓦语、毛利语和因纽特语中发布,并附有人工翻译。
- 代码库和模型公开发布以支持可重复性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。