QUICK REVIEW

[论文解读] Raising Bars, Not Parameters: LilMoo Compact Language Model for Hindi

Shiza Fatimah, Aniket Sen|arXiv (Cornell University)|Mar 3, 2026

Natural Language Processing Techniques被引用 0

一句话总结

LilMoo 是一个从零开始训练、0.6B 参数的印地语语言模型，采用透明流水线，在与同等规模的多语言基线相比时表现出色。

ABSTRACT

The dominance of large multilingual foundation models has widened linguistic inequalities in Natural Language Processing (NLP), often leaving low-resource languages underrepresented. This paper introduces LilMoo, a 0.6-billion-parameter Hindi language model trained entirely from scratch to address this gap. Unlike prior Hindi models that rely on continual pretraining from opaque multilingual foundations, LilMoo is developed through a fully transparent and reproducible pipeline optimized for limited compute environments. We construct a high-quality Hindi corpus (GigaLekh) filtered through both heuristic and learned (LLM-as-a-judge) methods, complemented by bilingual augmentation with curated English data. Using this dataset, we explore various training recipes for small-scale language models. Across comprehensive evaluation suites, LilMoo consistently outperforms comparably sized multilingual baselines such as Qwen2.5-0.5B and Qwen3-0.6B, demonstrating that well-designed language-specific pretraining can rival large multilingual models at the sub-billion-parameter range.

研究动机与目标

通过从零开始训练，开发原生印地语语言模型以解决 NLP 中的语言不平等问题。
构建高质量印地语语料库（GigaLekh）和轻量化筛选工具，以实现可复现的数据挑选。
在亚十亿参数规模下评估单语印地语预训练与多语言基线的差异。
发布完全开源的数据集、模型和训练方案，促进低资源语言 NLP 的可复现性。

提出的方法

使用启发式与学习型（LLM 作为裁判）筛选，构建高质量印地语语料库（GigaLekh）。
在两种方案下（单语与混合语言）以共享的 0.6B 参数的 Llama 基础架构训练两种原生语言模型。
设计从头训练的专用分词器，基于印地语-英语-代码数据，词汇表大小为 49,152。
开发评估框架和双语增强流程，以评估跨语言鲁棒性。
在宽容许可下发布所有资源（数据集、模型、代码），以实现可复现性。

Figure 1: Pretraining loss curve for the LilMoo pair.

实验结果

研究问题

RQ1从零开始用亚十亿参数规模训练的原生印地语模型，性能是否可与同等规模的多语言基线相提并论？
RQ2在紧凑模型范畴内，双语英语增强对印地语模型性能有何影响？
RQ3数据质量、筛选和分词器设计如何影响印地语模型的效率和效果？
RQ4全面开放的训练流水线对低资源语言的资源需求与可复现性有何影响？

主要发现

LilMoo-v0.1（仅印地语）与 LilMoo-v0.2（印地语+英语）以两种不同的方案进行训练。
LilMoo 在与同等规模的多语言基线（如 Qwen2.5-0.5B、Qwen3-0.6B）在亚十亿参数规模任务上表现具有竞争力。
专用的印地语分词器（词汇量 49,152）显示出较强的效率（fertility 1.46，PCW 0.50），相比若干多语言基线表现良好。
训练栈在 NVIDIA A100 GPU 上采用内存与计算节省技术（BF16、TF32、GQA、激活检查点、FlashAttention-2），实现约 ~70% 的 MFU。
所有数据集、模型和代码均以 Apache 2.0 许可证发布，以实现开放的可复现性。

Figure 2: Gradient Statistics for the LilMoo pair.

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。