[論文レビュー] Raising Bars, Not Parameters: LilMoo Compact Language Model for Hindi
LilMoo は透明なパイプラインでゼロから訓練された 0.6B のヒンディー語モデルで、Qwen2.5-0.5B や Qwen3-0.6B のような同規模の多言語ベースラインと比較して強力な性能を発揮します。
The dominance of large multilingual foundation models has widened linguistic inequalities in Natural Language Processing (NLP), often leaving low-resource languages underrepresented. This paper introduces LilMoo, a 0.6-billion-parameter Hindi language model trained entirely from scratch to address this gap. Unlike prior Hindi models that rely on continual pretraining from opaque multilingual foundations, LilMoo is developed through a fully transparent and reproducible pipeline optimized for limited compute environments. We construct a high-quality Hindi corpus (GigaLekh) filtered through both heuristic and learned (LLM-as-a-judge) methods, complemented by bilingual augmentation with curated English data. Using this dataset, we explore various training recipes for small-scale language models. Across comprehensive evaluation suites, LilMoo consistently outperforms comparably sized multilingual baselines such as Qwen2.5-0.5B and Qwen3-0.6B, demonstrating that well-designed language-specific pretraining can rival large multilingual models at the sub-billion-parameter range.
研究の動機と目的
- NLPにおける言語的不平等を是正するため、ゼロから訓練されたネイティブなヒンディー語モデルを開発する。
- 再現性のあるデータクレンジングを実現するため、質の高いヒンディー語コーパス(GigaLekh)と軽量なフィルタリングツールを構築する。
- サブビリオンダラー規模でのモノリンガルヒンディー pretrained と多言語ベースラインを比較評価する。
- 再現性を促進するため、完全にオープンなデータセット、モデル、訓練レシピを公開する。
提案手法
- ヒューリスティックおよび学習済み(LLM-判定者)フィルタを用いて高品質なヒンディー語コーパス(GigaLekh)を構築する。
- 2つのレシピ(モノリンガルと混合言語)で共有する 0.6B パラメータの Llama ベースアーキテクチャを持つネイティブ言語モデルを2つ訓練する。
- ヒンディー語-英語-コードデータからゼロから学習させた専用トークナイザを設計し、49,152 トークン語彙を用意する。
- 横断言語の堅牢性を評価するための評価ハーストとバイリンガル拡張パイプラインを開発する。
- 再現性のため、データセット、モデル、コードをすべて寛容なライセンスのもとで公開する。

実験結果
リサーチクエスチョン
- RQ1ゼロから訓練されたネイティブなサブビリオンダラー規模のヒンディー語モデルは、同等サイズの多言語ベースと同等の性能に到達できるか。
- RQ2英語のバイリンガル拡張が、コンパクトなモデル regime のヒンディー語モデルの性能に与える影響は。
- RQ3データ品質、フィルタリング、トークナイザ設計はヒンディー語のモデルの効率性と効果にどう影響するか。
- RQ4低資源言語の完全オープンな訓練パイプラインの資源消費と再現性への影響は何か。
主な発見
- LilMoo-v0.1(ヒンディー語のみ)と LilMoo-v0.2(ヒンディー語+英語)は2つの異なるレシピで訓練されている。
- LilMoo は Qwen2.5-0.5B および Qwen3-0.6B のような同規模の多言語ベースラインに対して、サブビリオンダラー規模のタスクで競争力のある性能を示す。
- 49,152 の語彙サイズを持つ専用のヒンディー語トークナイザは、いくつかの多言語ベースラインと比較して高い効率性を示す(fertility 1.46、PCW 0.50)。
- 訓練スタックはメモリと計算資源の節約技術(BF16、TF32、GQA、活性化のチェックポイント、FlashAttention-2)を NVIDIA A100 GPU 上で用い、MFU 約70% を達成している。
- すべてのデータセット、モデル、コードはオープンな再現性を可能にする Apache 2.0 ライセンスの下で公開されている。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。