QUICK REVIEW

[論文レビュー] Raising Bars, Not Parameters: LilMoo Compact Language Model for Hindi

Shiza Fatimah, Aniket Sen|arXiv (Cornell University)|Mar 3, 2026

Natural Language Processing Techniques被引用数 0

ひとこと要約

LilMoo は透明なパイプラインでゼロから訓練された 0.6B のヒンディー語モデルで、Qwen2.5-0.5B や Qwen3-0.6B のような同規模の多言語ベースラインと比較して強力な性能を発揮します。

ABSTRACT

The dominance of large multilingual foundation models has widened linguistic inequalities in Natural Language Processing (NLP), often leaving low-resource languages underrepresented. This paper introduces LilMoo, a 0.6-billion-parameter Hindi language model trained entirely from scratch to address this gap. Unlike prior Hindi models that rely on continual pretraining from opaque multilingual foundations, LilMoo is developed through a fully transparent and reproducible pipeline optimized for limited compute environments. We construct a high-quality Hindi corpus (GigaLekh) filtered through both heuristic and learned (LLM-as-a-judge) methods, complemented by bilingual augmentation with curated English data. Using this dataset, we explore various training recipes for small-scale language models. Across comprehensive evaluation suites, LilMoo consistently outperforms comparably sized multilingual baselines such as Qwen2.5-0.5B and Qwen3-0.6B, demonstrating that well-designed language-specific pretraining can rival large multilingual models at the sub-billion-parameter range.

研究の動機と目的

NLPにおける言語的不平等を是正するため、ゼロから訓練されたネイティブなヒンディー語モデルを開発する。
再現性のあるデータクレンジングを実現するため、質の高いヒンディー語コーパス（GigaLekh）と軽量なフィルタリングツールを構築する。
サブビリオンダラー規模でのモノリンガルヒンディー pretrained と多言語ベースラインを比較評価する。
再現性を促進するため、完全にオープンなデータセット、モデル、訓練レシピを公開する。

提案手法

ヒューリスティックおよび学習済み（LLM-判定者）フィルタを用いて高品質なヒンディー語コーパス（GigaLekh）を構築する。
2つのレシピ（モノリンガルと混合言語）で共有する 0.6B パラメータの Llama ベースアーキテクチャを持つネイティブ言語モデルを2つ訓練する。
ヒンディー語-英語-コードデータからゼロから学習させた専用トークナイザを設計し、49,152 トークン語彙を用意する。
横断言語の堅牢性を評価するための評価ハーストとバイリンガル拡張パイプラインを開発する。
再現性のため、データセット、モデル、コードをすべて寛容なライセンスのもとで公開する。

Figure 1: Pretraining loss curve for the LilMoo pair.

実験結果

リサーチクエスチョン

RQ1ゼロから訓練されたネイティブなサブビリオンダラー規模のヒンディー語モデルは、同等サイズの多言語ベースと同等の性能に到達できるか。
RQ2英語のバイリンガル拡張が、コンパクトなモデル regime のヒンディー語モデルの性能に与える影響は。
RQ3データ品質、フィルタリング、トークナイザ設計はヒンディー語のモデルの効率性と効果にどう影響するか。
RQ4低資源言語の完全オープンな訓練パイプラインの資源消費と再現性への影響は何か。

主な発見

LilMoo-v0.1（ヒンディー語のみ）と LilMoo-v0.2（ヒンディー語＋英語）は2つの異なるレシピで訓練されている。
LilMoo は Qwen2.5-0.5B および Qwen3-0.6B のような同規模の多言語ベースラインに対して、サブビリオンダラー規模のタスクで競争力のある性能を示す。
49,152 の語彙サイズを持つ専用のヒンディー語トークナイザは、いくつかの多言語ベースラインと比較して高い効率性を示す（fertility 1.46、PCW 0.50）。
訓練スタックはメモリと計算資源の節約技術（BF16、TF32、GQA、活性化のチェックポイント、FlashAttention-2）を NVIDIA A100 GPU 上で用い、MFU 約70% を達成している。
すべてのデータセット、モデル、コードはオープンな再現性を可能にする Apache 2.0 ライセンスの下で公開されている。

Figure 2: Gradient Statistics for the LilMoo pair.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。