[论文解读] Tiny Aya: Bridging Scale and Multilingual Depth
Tiny Aya 提供一个 3.35B 参数的多语言模型族,训练覆盖 70 种语言,采用区域专用后训练和均衡数据混合,以实现强翻译、多语言理解与安全生成。
Tiny Aya redefines what a small multilingual language model can achieve. Trained on 70 languages and refined through region-aware posttraining, it delivers state-of-the-art in translation quality, strong multilingual understanding, and high-quality target-language generation, all with just 3.35B parameters. The release includes a pretrained foundation model, a globally balanced instruction-tuned variant, and three region-specialized models targeting languages from Africa, South Asia, Europe, Asia-Pacific, and West Asia. This report details the training strategy, data composition, and comprehensive evaluation framework behind Tiny Aya, and presents an alternative scaling path for multilingual AI: one centered on efficiency, balanced performance across languages, and practical deployment.
研究动机与目标
- 通过设计高效、区域感知的多语言模型,解决语言间性能不均衡的问题。
- 开发一个均衡数据混合与单一多语言分词器,以在不产生词汇转移问题的情况下支持多样语言。
- 证明区域专用的后训练与模型合并在提升区域翻译/生成质量的同时,保留全球指令遵循与安全性。
- 提供一个评估框架,在广泛语言集合上衡量翻译、理解、推理和安全方面的多语言能力。
提出的方法
- 使用密集解码器仅 Transformer 架构,采用并行块和交错注意力;使用 SwiGLU 激活且不使用偏置以提高稳定性。
- 在 70 种语言上以 Warmup-Stable-Decay 调度对 Tiny Aya 进行 6T Tokens 的预训练;在支持 FP8 的基础设施上使用 FP8/BF16/FP32 混合精度。
- 构建带区域感知数据权重的单一多语言分词器,确保对各语言和脚本的公平表示(词汇量 262k)。
- 创建区域后训练聚类(亚太地区、非洲、南亚、欧洲、西亚)并通过翻译、提示级变换和来自多位教师的 FusioN 数据生成,综合平衡的多语言数据。
- 使用 SimMerge 将区域专用后训练检查点与全球检查点合并,以保留全球安全性与指令遵循,同时提升区域特定表现。
实验结果
研究问题
- RQ1如何在不单靠扩大模型规模的情况下,实现对大数量语言的平衡多语言性能?
- RQ2哪些数据、分词与后训练策略能带来稳健的跨语言能力与区域特定优势?
- RQ3区域专用后训练与预测性合并是否能在提升区域翻译与生成质量的同时,保留安全性与指令遵循?
- RQ4全面的多语言评估如何将 Tiny Aya 与现有模型在翻译、推理和开放式任务上进行比较?
主要发现
- Tiny Aya 在相同大小级别的现有多语言模型中实现了具有竞争力的任务性能。
- 区域专用变体在南亚的翻译质量提升高达 5.5 ChrF 点,非洲地区平均提升 1.7 点。
- Tiny Aya Global 在 WMT24++ 的 55 语言中翻译质量优于 Gemma3-4B 的 46 语言,在同等规模的开放式任务中也达到或超过同类开放模型。
- Tiny Aya 在 MultiJail 上达到最高平均安全性响应率(91.1%),同时保持各语言的最低安全性。
- 单一多语言分词器与均衡的后训练混合减少语言差异,支持区域化实际部署。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。